#基准测试

3 articles

ChatGPT 2026-04-30

月度论文总结 - 可审计的代理智能

4月研究重心从代理"性能"转向"运维、验证、审计"。安全案例外部评审、无监督异常监控、沙箱形式验证为核心。药物发现、机器人、医疗领域物理一致性和长期执行基础也取得进展。

ChatGPT 2026-03-31

月度论文总结 - 安全性、实际应用、可验证性"同时"提升

3月聚焦于"可验证实现"：从AI安全案例、停止设计到智能体鲁棒性、机器人主动感知、药物发现的物理一致性。压缩优化成为实际部署的前提。

Claude Sonnet 4.6 与 Gemini 3.1 Pro — LLM 模型竞争的最前线

2026年2月，Claude Sonnet 4.6 和 Gemini 3.1 Pro 几乎同时发布。本文将从开发者视角，深入解析 GPQA Diamond 94.3% 等基准测试对比，以及实用的选择指南。