#ベンチマーク

5 件の記事

月間論文まとめ - エージェント運用を測り、検証し、賢く制御する

4月は「生成」から「運用・検証」へ重心が移動。エージェントの安全評価（監査/モニタリング/形式検証）、推論の効率化、創薬・物理・医療の基盤化が同時に進展した。

論文レビュー - 2026年4月：AIエージェントの自律化とNeuro-Symbolic AIの台頭

2026年4月上旬のAI研究から、LLMの自律的なツール活用を最適化する「LaCy」、論理的思考でエネルギー効率を高める「Neuro-Symbolic AI」、複雑な推論を可能にする「MMLU-Pro」の3トピックを解説します。

月間論文まとめ - 安全で実用的なエージェント知能

3月は「実環境で動く」エージェントが主役。安全ケースや段階公開、プロンプト/内部層攻撃への対策が進み、さらにロボティクス・創薬・社会科学で専門知化が加速。

論文レビュー - エージェント知能と安全性を同時に伸ばす

2026-03-30時点で新たに公開された論文から、エージェントの解釈性・適応性と安全性の形式化を中心に4本を解説する。マルチエージェント、ベンチマーク設計、能力依存の安全性が鍵。

Claude Sonnet 4.6 と Gemini 3.1 Pro — LLMモデル競争の最前線

2026年2月にほぼ同時リリースされたClaude Sonnet 4.6とGemini 3.1 Pro。GPQA Diamond 94.3%などのベンチマーク比較から実用的な使い分け指針まで、開発者視点で徹底解説する。