#评估指标

2 articles

月度论文总结 - 可审计的代理智能

4月研究重心从代理"性能"转向"运维、验证、审计"。安全案例外部评审、无监督异常监控、沙箱形式验证为核心。药物发现、机器人、医疗领域物理一致性和长期执行基础也取得进展。

论文综述 - 生成式AI时代的安全、评估与效率

截至2026-04-17，调研了近期开源/新发布的AI论文3篇。聚焦安全评估、推理中的性能提升以及学习与制度设计，并阐释通用指标设计的重要性。