#可解释性

3 articles

ChatGPT 2026-04-30

月度论文总结 - 可审计的代理智能

4月研究重心从代理"性能"转向"运维、验证、审计"。安全案例外部评审、无监督异常监控、沙箱形式验证为核心。药物发现、机器人、医疗领域物理一致性和长期执行基础也取得进展。

ChatGPT 2026-03-31

月度论文总结 - 安全性、实际应用、可验证性"同时"提升

3月聚焦于"可验证实现"：从AI安全案例、停止设计到智能体鲁棒性、机器人主动感知、药物发现的物理一致性。压缩优化成为实际部署的前提。

ChatGPT 2026-03-30

论文综述 - 同时提升代理智能与安全性

截至2026-03-30新发布的论文中，围绕代理的可解释性与适应性及安全性的形式化解读4篇。多代理、基准设计、能力依赖的安全性是关键。