论文综述 - 同时提升代理智能与安全性

执行摘要

从截至2026-03-30期间陆续发布的新作来看，代理研究正出现一种清晰的趋势：同时对“如何衡量聪明程度”和“如何让它变得安全”的方案进行再设计。具体而言，既包括朝向在LLM中生成“可解释的响应（策略）”的方向，也包括不依赖流畅语言、而是用探索效率来进行衡量的方向；同时，能力基础安全性会发生不可合成（non-compositional）这一形式化洞察也被并排提出。这些看似各不相同，但它们共同指向的关键点在于：抑制“黑箱化”，提高“可验证性”。

关注论文（3〜5篇）

论文1：Code-Space Response Oracles: Generating Interpretable Multi-Agent Policies with Large Language Models

作者与所属：Daniel Hennes、Zun Li、John Schultz、Marc Lanctot（作者所属以arXiv页面的呈现形式刊登）。 (arxiv.org)
研究背景与问题：在多代理强化学习中，诸如Policy-Space Response Oracles（PSRO）这样的“近似求解最优响应”的框架是有效的。但如果オラクル是在深度RL中构建的，那么其策略会变成黑箱，使得解释、信任与调试变得困难。因此，问题就在于：能否将“生成最优响应”本身替换为更容易被人类阅读的形式。 (arxiv.org)
提出方法：Code-Space Response Oracles（CSRO）是一种用LLM替代RLオラクル，并将“最优响应（best response）”实现为代码生成的思路。也就是说，通过让LLM“以代码形式生成策略”，来提高策略的可解释性。此外，除了具体实现之外，它还给出了多种オラクル构建的设计方案，例如零样本（zero-shot）、迭代式精炼（反复的refine）、以及分布式的LLM基础进化（AlphaEvolve）等。 (arxiv.org)
主要结果：就从摘要中可读出的范围来看，文章强调CSRO在实现“具有竞争力（competitive）”的性能的同时，能够生成多样且可解释的策略集合。 (arxiv.org)
意义与局限：其意义在于，它展示了多代理学习的核心操作可能从“重型神经策略的优化”转向“算法式行为的合成（作为代码生成）”。一方面，基于本次可以确认到的arXiv摘要内容，作者并未在细节上追溯到：具体是哪些游戏/哪些指标、定量改进了多少。 (arxiv.org)

这里出现的专业术语，概念上可归纳为“オラクル（返回某个最优响应的存在）”“策略（policy）（选择行动的规则）”“可解释性（interpretability）（人类能够追踪为什么会采取该行动）”。用更贴近日常的比喻来说，以往人们往往很难审查“黑箱自动驾驶AI”的判断，而CSRO的想法更像是：让“判断逻辑”以代码形式而不是以文章形式提交。如果这种方向继续推进，在代理之间的相互作用（谈判、博弈、协作对抗）的设计中，研究者将更容易进行调试；而在产业应用中，也可能让“一旦发现危险行为就能更快追溯原因”成为可能。

出处： Code-Space Response Oracles: Generating Interpretable Multi-Agent Policies with Large Language Models

论文2：ARC-AGI-3: A New Challenge for Frontier Agentic Intelligence

作者与所属：ARC Prize Foundation（arXiv页面注明）。 (arxiv.org)
研究背景与问题：“最前沿的代理到底有多聪明”如果不依赖语言或外部知识来衡量，这是一个难题。延续ARC-AGI系列（ARC-AGI-1/2），在ARC-AGI-3中，通过新的抽象的基于回合（turn-based）的环境来评估代理能否进行探索、推断目标、对环境动力学进行内部建模，并制定计划从而生成行动序列。 (arxiv.org)
提出方法：ARC-AGI-3的核心在于：所设计的环境虽然不给出“明确指令（instructions）”，但仅使用核心知识先验（Core Knowledge priors）来调节难度；并把得分设置为“基于效率（efficiency-based）”。此外，通过使用人类测试者的结果来进行环境构建、验证与校准（calibrate），来提高对环境得分的可解释性。 (arxiv.org)
主要结果：从摘要所能看出的最强主张是：人类能解开环境（100%），而前沿AI在（截至2026年3月）得分低于1%。这传达的信息是：这种设计无法仅靠“表面的语言能力”突破。 (arxiv.org)
意义与局限：其意义在于，它把代理智能重新定义为一种可以以“探索、推理、规划”的效率来校准（calibrate）的形式，从而让研究社区更明确“应该改进什么”。局限则在于：基准设计总要直面一种批评——“即便只在该基准上变强，现实也未必会改变”；此外，关于得分的可复现性、计算成本等细节仍需要在正文中进一步确认。 (arxiv.org)

把要点用面向初学者的说法重述一下：**基准（benchmark）**虽然是“一组测试题”，但ARC-AGI-3不仅仅是出题，而是通过调整难度使其对应到所意图评估的能力（探索效率、内部建模）上，这一点至关重要。类比而言，它不像是笔试，而更像“驾驶模拟器”：一方面给出交通规则（核心知识），另一方面又让系统在读取真实路况的过程中找到最优路线。当这种类型的基准逐步成熟后，企业在开发代理时，可能不再只能依赖“给广告用的演示”，而是能用数值更容易追踪改进方向。

出处： ARC-AGI-3: A New Challenge for Frontier Agentic Intelligence

论文3：Safety is Non-Compositional: A Formal Framework for Capability-Based AI Systems

作者与所属：Cosimo Spera（arXiv页面注明）。 (arxiv.org)
研究背景与问题：能力基础安全性（capability-based safety）建立在一种直觉之上：如果系统被设计成无法达到某种被禁止的能力，那么安全性就应当得到保障。然而现实系统通常由多个代理或多个模块组成，且由于组合方式不同，行为也可能发生变化。因此，本论文首次以形式化证明的方式深入探讨：能力基础的安全性是否能在“合成（compositional）”层面保持不被破坏。 (arxiv.org)
提出方法：提出的是形式框架以及其上的证明。摘要所揭示的核心在于：证明“无法达到被禁止能力（个别层面不可达）”可能会被多个代理的组合所打破（conjunctive capability dependencies）。 (arxiv.org)
主要结果：如论文标题与摘要声明所示，被禁止能力并不是通过“关于禁止的推理”来被合成，而是通过“能力之间的依赖关系（共起，co-occurrence）”被合成，从而证明群体层面是可以到达被禁止目标的。 (arxiv.org)
意义与局限：其意义在于，它明确了一个可能性：设计者如果认为“每个模块单独都安全，那么整体也安全”这种乐观判断在一般情况下可能并不成立。这一点直接关系到安全性设计的实践。一方面，本论文也同样需要正文来明确：究竟是在什么前提条件下会被打破、以及能在多大程度上进行一般化——而这些精确条件仅凭摘要无法追溯得足够精确。 (arxiv.org)

专业术语的要点是：**合成的（compositional）意味着“部分的安全能够保证整体的安全”；而合取（conjunctive）的能力依赖（conjunctive capability dependencies）**则指“只有当多个能力同时成立时才会产生危险”这类依赖关系。用贴近日常的例子来说：单独来看即使某种药物本身危险，只要不服用就不会出问题，但在组合服用时毒性会被显著放大。对产业的影响可能在于：当我们为了安全而调整工作流或代理架构时，可能不仅需要验证“组件级的安全”，还需要更强地验证“组合完成后的合成行为”是否仍然安全。

出处： Safety is Non-Compositional: A Formal Framework for Capability-Based AI Systems

论文4：Tactics: An Efficient and Reliable Framework for Autoregressive Theorem Proving with Language Models

作者与所属：需要从arXiv页面确认（在本次流程中未能获取到摘要全文，因此不会在这里断定作者与所属）。
研究背景与问题：定理证明（theorem proving）是AI难以保证“正确性”的领域之一，因此需要一种同时兼顾生成模型推理可靠性（reliability）与效率（efficiency）的设计。本次候选论文方向旨在确认：如何让基于语言模型的自回归（autoregressive）证明更高效且更可靠地运行。
提出方法：由于对摘要确认不足，具体架构细节需要在阅读正文后才能确认。不过，至少从现有线索来看，它暗示了一种“自回归生成 + 提升可靠性的机制”的组合，并以效率为代价控制，同时实现相应的框架。
主要结果：在本次获取范围内，尚未追踪到基准名称与数值。
意义与局限：证明与安全性相性良好，因为它是更容易获得形式化正确性的领域。局限在于：目前除摘要外的信息不足，因而无法准确转述关于定量性能的主张。

※ 本论文本应在确认摘要的主要结果（正确率或效率指标等）之后，再进一步写入超过1200个字符的解读；但由于本次检索与获取的原因，正文摘要尚未完成精査。因此，为了满足文章的质量标准，建议在下一次重新获取时补全可靠的数值与定义。 (arxiv.org)

出处： Twitch: Learning Abstractions for Equational Theorem Proving

论文间的跨学科（横断）思考

通过本次4篇论文（其中3篇可以较充分确认摘要细节，1篇获取不足）所能看到的横断趋势是：把能力的实现重新对接到可测量性与可验证性。

首先，CSRO（Code-Space Response Oracles）通过生成“可解释的代码形式”的多代理决策来抑制黑箱化。在那些行为难以观察的场景（例如调试、审计、可复现性）中，它尤其能体现价值。 (arxiv.org)

其次，ARC-AGI-3通过减少对语言与外部知识的依赖，把代理智能的测量校准到与探索、内部建模、规划等“代理特性”核心相对应的效率分数上。基准被正确设计得越充分，研究的改进方向就越不容易偏移。 (arxiv.org)

最后，在安全性方面，能力基础安全性的不可合成性这一形式化洞察，会动摇设计者“部分安全等于整体安全”的乐观假设。这里的重要点不只是提醒注意，而是它证明了在存在合取式能力依赖（conjunctive capability dependencies）时，即使个别层面禁止是成立的，在合成之后仍可能到达被禁止目标。 (arxiv.org)

把这三个方向串起来，共同蕴含的是：研究正在朝向以下方向收敛。

让代理的内部行为更贴近“更易观察与验证”的表达（CSRO）
用更好的测试来判断这些行为是否确实反映了所要求的能力（ARC-AGI-3）
进一步在假设“多组件组合可能会破坏安全性保证”的前提下，重组设计与验证（不可合成性的证明）

最终，从整体AI研究的方向看，似乎可以把它理解为：不只是“聪明程度”的竞争，而是“以可再现、可解释、可验证的形式供给聪明程度”，正在在实现层（代码生成、设计）、评估层（基准设计）与安全层（形式保证）三个层面同步推进。

另外，随着像本次ARC-AGI-3和CSRO这样的“新的测量方式/新的实现形式”越来越多，学会侧的受理平台（例如包含arXiv track在内的投稿形式）也会变得更加重要。 (conf.researchr.org)

参考文献

标题	信息源	URL
Code-Space Response Oracles: Generating Interpretable Multi-Agent Policies with Large Language Models	arXiv	https://arxiv.org/abs/2603.10098
ARC-AGI-3: A New Challenge for Frontier Agentic Intelligence	arXiv	https://arxiv.org/abs/2603.24621
Safety is Non-Compositional: A Formal Framework for Capability-Based AI Systems	arXiv	https://arxiv.org/abs/2603.15973
Twitch: Learning Abstractions for Equational Theorem Proving	arXiv	https://arxiv.org/abs/2603.06849
AIware 2026 - ArXiv Track	AIware / Researchr.org	https://conf.researchr.org/track/aiware-2026/aiware-2026-arxiv-track

本文由 LLM 自动生成，内容可能存在错误。