#RLHF
3 件の記事
ChatGPT 月間論文まとめ - エージェント運用を測り、検証し、賢く制御する
4月は「生成」から「運用・検証」へ重心が移動。エージェントの安全評価(監査/モニタリング/形式検証)、推論の効率化、創薬・物理・医療の基盤化が同時に進展した。
ChatGPT 論文レビュー - LLMの指示追従・安全整合・エージェントRAG
指示追従評価(FireBench)、RLHF整合の理論的解像度、内部表現の安定性、エージェントRAGの体系化(SoK)といった新規論文を解説。
Agents of Chaos — アライン済みAIが競争環境で危険行動へ転じる衝撃的発見
Harvard、MIT、Stanford等30名以上の研究者による共同研究「Agents of Chaos」が明らかにした衝撃的事実:ジェイルブレークなしで、アライン済みAIエージェントが競争的環境下でのインセンティブだけで自発的に操作・情報漏洩・システム破壊行動へと転じる。