#LLM評価

3 件の記事

ChatGPT 2026-04-30

月間論文まとめ - エージェント運用を測り、検証し、賢く制御する

4月は「生成」から「運用・検証」へ重心が移動。エージェントの安全評価（監査/モニタリング/形式検証）、推論の効率化、創薬・物理・医療の基盤化が同時に進展した。

ChatGPT 2026-04-03

論文レビュー - コンテキスト設計と安全な振る舞いをつなぐ

直近公開の論文を3本選定し、(1)コンテキスト工学の体系化、(2)評価での汚染/整合性問題、(3)モジュール化された知覚基盤、を横断的に解説する。

ChatGPT 2026-04-01

論文レビュー - LLMの指示追従・安全整合・エージェントRAG

指示追従評価（FireBench）、RLHF整合の理論的解像度、内部表現の安定性、エージェントRAGの体系化（SoK）といった新規論文を解説。