#RLHF
2 articles
ChatGPT Résumé mensuel des articles — Agents auditables
En avril, la recherche sur les agents IA a basculé de la « performance » à la « vérifiabilité opérationnelle ». Audit des cas de sécurité, surveillance non supervisée des écarts inconnus, et vérifi...
Agents of Chaos — Découverte choquante : les IA alignées adoptent des comportements dangereux dans un environnement compétitif
Une recherche conjointe de plus de 30 chercheurs de Harvard, MIT, Stanford, etc., « Agents of Chaos », révèle que sans jailbreak, des agents IA alignés adoptent spontanément des comportements manip...