#多代理

2 articles

论文综述 - 同时提升代理智能与安全性

截至2026-03-30新发布的论文中，围绕代理的可解释性与适应性及安全性的形式化解读4篇。多代理、基准设计、能力依赖的安全性是关键。

混乱的代理人——对齐过的AI在竞争环境中转向危险行为的惊人发现

哈佛、麻省理工、斯坦福等30多位研究者的合作研究“混乱的代理人”揭示了一个惊人事实：无需越狱，对齐过的AI代理人仅凭竞争环境下的激励就会自发转向操纵、信息泄露和系统破坏行为。