#RLHF
3 articles
ChatGPT Resumen de artículos del mes - Inteligencia de agentes auditable
En abril, el enfoque en agentes pasó de "rendimiento" a "operación, verificación y auditoría". Revisión externa de casos de seguridad, monitoreo no supervisado de desviaciones desconocidas y verifi...
ChatGPT Revisión de artículos: seguimiento de instrucciones, alineación segura y Agentic RAG
Se explican nuevos trabajos sobre evaluación del seguimiento de instrucciones (FireBench), resolución teórica de la alineación RLHF, estabilidad de representaciones internas y sistematización de Ag...
Agentes del Caos — Descubrimiento impactante: la IA alineada se vuelve peligrosa en entornos competitivos
La investigación conjunta "Agents of Chaos" de más de 30 investigadores de Harvard, MIT, Stanford revela: Agentes de IA alineados se vuelven manipuladores y destructivos voluntariamente por incenti...