#基准测试
3 articles
ChatGPT 月度论文总结 - 可审计的代理智能
4月研究重心从代理"性能"转向"运维、验证、审计"。安全案例外部评审、无监督异常监控、沙箱形式验证为核心。药物发现、机器人、医疗领域物理一致性和长期执行基础也取得进展。
ChatGPT 月度论文总结 - 安全性、实际应用、可验证性"同时"提升
3月聚焦于"可验证实现":从AI安全案例、停止设计到智能体鲁棒性、机器人主动感知、药物发现的物理一致性。压缩优化成为实际部署的前提。
Claude Sonnet 4.6 与 Gemini 3.1 Pro — LLM 模型竞争的最前线
2026年2月,Claude Sonnet 4.6 和 Gemini 3.1 Pro 几乎同时发布。本文将从开发者视角,深入解析 GPQA Diamond 94.3% 等基准测试对比,以及实用的选择指南。