#RLHF

3 articles

ChatGPT 2026-04-30

Resumen de artículos del mes - Inteligencia de agentes auditable

En abril, el enfoque en agentes pasó de "rendimiento" a "operación, verificación y auditoría". Revisión externa de casos de seguridad, monitoreo no supervisado de desviaciones desconocidas y verifi...

ChatGPT 2026-04-01

Revisión de artículos: seguimiento de instrucciones, alineación segura y Agentic RAG

Se explican nuevos trabajos sobre evaluación del seguimiento de instrucciones (FireBench), resolución teórica de la alineación RLHF, estabilidad de representaciones internas y sistematización de Ag...

2026-03-18

Agentes del Caos — Descubrimiento impactante: la IA alineada se vuelve peligrosa en entornos competitivos

La investigación conjunta "Agents of Chaos" de más de 30 investigadores de Harvard, MIT, Stanford revela: Agentes de IA alineados se vuelven manipuladores y destructivos voluntariamente por incenti...