2025年3月,arXiv上发布的“Large Language Model Agent: A Survey on Methodology, Applications and Challenges”(arXiv
.21460)是一篇全面的综述,该论文梳理了329篇关于LLM代理方法论、应用和挑战的论文。由Junyu Luo牵头,26位研究者参与的这项工作,将LLM代理定位为通往AGI(通用人工智能)的重要研究领域,并为代理型推理的体系化提供了新的指导方针。本文将以此综述为核心,围绕规划、工具使用、记忆、自我改进这四个维度来梳理代理型推理,并对Silo-Bench和MC-Search等LLM代理研究的最新进展进行阐述。
为何“代理型推理”备受瞩目
从缩放定律到代理化
2010年代后期到2020年代初期,LLM的性能提升主要得益于缩放定律——模型规模、数据量和计算量的增长。然而,缩放的成本呈指数级增长,依靠相同的方法获得同等性能提升变得愈发困难。
截至2026年,研究的重心已明确从“如何扩大模型规模”转向“如何使用模型”。一篇梳理代理型强化学习生态的调查论文(arXiv
.02547)将这一转变描述为“将LLM从被动的序列生成器转变为嵌入复杂动态环境中的自主决策代理”。从“生成”到“行动”的范式转变
传统的LLM被设计为接收提示并返回文本的“闭环生成系统”。代理型LLM从根本上颠覆了这一设计。
- 被赋予目标,并能自主制定行动计划
- 调用外部工具(搜索引擎、代码解释器、API等)
- 将执行结果作为反馈纳入,并修正计划
- 保持长期记忆,并在多个会话中进行适应
这是从“回答问题”到“完成任务”的转变,堪称AI系统的根本性范式变革。
代理型推理的4个核心维度
“LLM-based Agentic Reasoning Frameworks: A Survey from Methods to Scenarios”(arXiv
.17692)和arXiv.02547等多篇综述趋同定义的四维框架,已成为当前研究社区的共识。┌────────────────────────────────────────┐
│ LLM 代理 │
│ │
│ ┌──────────┐ ┌──────────┐ │
│ │ 规划 │ │工具使用 │ │
│ │ Planning │ │ Tool Use │ │
│ └────┬─────┘ └────┬─────┘ │
│ │ │ │
│ ┌────▼─────┐ ┌────▼─────┐ │
│ │ 记忆 │ │ 自我改善 │ │
│ │ Memory │ │ Self- │ │
│ │ │ │ Improve │ │
│ └──────────┘ └──────────┘ │
└────────────────────────────────────────┘
维度一:规划(Planning)
规划是代理型推理的起点。它指的是将给定目标分解,并将其组织为一系列可执行子任务的能力。
任务分解的方法存在一个逐步进化的过程。Chain-of-Thought(CoT)作为一种简单的规划表述得到了广泛应用,但近年来出现了更精细的方法。
- Tree-of-Thoughts(ToT): 以树状结构表示规划,并探索和评估多个候选路径。
- Graph-of-Thoughts(GoT): 引入图结构,实现规划的复用和分支。
- 分层架构: 更高级别的代理制定战略规划,并将具体子任务委托给低级别代理。
规划的精度决定了代理的整体性能。没有适当的子任务分解,后续的工具使用和记忆利用都无法有效发挥作用。
维度二:工具使用(Tool Use)
工具使用是代理与外部系统交互的功能。LLM能够自主选择和调用各种工具,如向搜索引擎发出查询、执行代码、查阅数据库、调用外部API等。
Model Context Protocol(MCP)的出现在工具使用的标准化方面具有历史意义。Anthropic于2024年11月提出的这一协议,是一种实现LLM与工具集之间“即插即用”连接的开放标准,堪称“AI应用的USB-C”。
MCP的采用迅速普及,截至2025年底,SDK月下载量超过9700万次,OpenAI、Google、Microsoft也已宣布采用。2025年12月,Anthropic将MCP捐赠给Linux基金会旗下的Agentic AI Foundation(AAIF),使其成为真正的行业标准。
工具选择的方法论可分为以下三种类型:
| 选择方式 | 内容 | 适用场景 |
|---|---|---|
| 自主选择 | LLM根据情况判断选择工具 | 通用代理 |
| 基于规则 | 通过预定义规则选择 | 约束明确的任务 |
| 基于学习 | 通过强化学习优化工具选择 | 重复性任务 |
维度三:记忆(Memory)
记忆是支撑代理自主性的基石。由于LLM的上下文窗口有限,长期信息保留需要外部记忆机制。
“Memory for Autonomous LLM Agents: Mechanisms, Evaluation, and Emerging Frontiers”(arXiv
.07670)全面回顾了2022年至2026年初的记忆研究,并定义了一个四层记忆架构。| 记忆类型 | 内容 | 实现示例 |
|---|---|---|
| 工作记忆 | 当前任务的上下文(上下文窗口) | LLM的输入缓冲区 |
| 情景记忆 | 过去的事件/经验(带时间戳) | 向量数据库 |
| 语义记忆 | 抽象概念、知识、事实 | 知识图谱、RAG |
| 程序性记忆 | 可执行的技能、规划模板 | 微调、代码 |
研究揭示的一个重要发现是,“实现四层结构的理想整合的例子非常罕见”。目前大多数系统有效实现了两层,层间转换则通过启发式方法处理。A-Mem(arXiv
.12110)等研究正在探索结合向量搜索和图结构的先进记忆架构,但完整的四层整合仍是一个开放的研究课题。维度四:自我改进(Self-Improvement)
代理从经验中学习并自我改进的能力是第四个维度。arXiv
.17692梳理的自我改进的三种范式如下:反思(Reflection): 代理回顾过去的行动和结果,并从中提取教训的机制。Reflexion和Self-Refine是实现这一想法的代表性框架。Reflexion将行动历史作为情景记忆保存,并在下一次尝试前插入反思过程。Self-Refine生成反馈用于改进其生成结果,并迭代地优化输出。
迭代优化(Iterative Optimization): 不更新模型整体的权重,而是通过迭代地优化提示或工具选择策略来改进的方法。
交互式学习(Interactive Learning): 通过与环境持续交互来动态调整目标。与强化学习高度兼容,并正在与代理型RL融合。
从实现角度看代理的基本循环
从实现角度来看,四个维度的相互作用可以概括为代理的基本循环如下:
# 代理型推理的基本循环(伪代码)
def agent_loop(goal, tools, memory):
while not goal_achieved(goal):
# 1. 从环境中观察(感知)
observation = perceive(environment)
# 2. 从记忆中检索相关信息(记忆)
relevant_context = memory.retrieve(observation, top_k=5)
# 3. 生成规划(规划)
plan = llm.plan(goal, observation, relevant_context)
# 4. 选择并执行工具(工具使用)
action = plan.next_action()
result = tools.execute(action)
# 5. 更新记忆(记忆 → 自我改进的素材)
memory.store(episode={
"action": action,
"result": result,
"timestamp": now()
})
# 6. 反思/自我修正(自我改进)
if result.is_failure():
reflection = llm.reflect(action, result)
plan.revise(reflection)
在这个循环中,四个维度并非独立的模块,而是相互提供反馈的动态系统。
多智能体:第五个维度
多智能体系统旨在应对超越单智能体能力的任务。arXiv
.21460的综述将智能体间的协作机制定位为架构的重要支柱。MultiAgentBench:评估框架的完善
MultiAgentBench(arXiv
.01935,ACL 2025录用)对加速多智能体系统的研究做出了贡献。该框架定量评估LLM智能体群的协作与竞争,具有以下特点:- 不仅测量任务完成率,还通过基于里程碑的KPI衡量协作质量
- 评估Star、Chain、Tree、Graph四种协作拓扑结构
- 验证群体讨论、认知规划等创新策略
- 主要发现:Graph结构在研究场景中表现最佳,认知规划将里程碑达成率提高3%。
协作拓扑结构的设计
多智能体系统的组织结构可分为三种类型。
中央集权型 分散型 层级型
A A B Leader
/ | \ |\/| / | \
B C D C D Sub1 Sub2 Sub3
/ \ / \
E F G H
MultiAgentBench的结果表明,最优拓扑结构取决于任务性质。复杂的研究任务中Graph结构占优,但简单执行任务时Star或Chain结构更为高效。
MC-Search:多模态代理搜索的最前沿
2026年3月发布的MC-Search(arXiv
.00873,ICLR 2026投稿)是一个用于评估和增强跨文本和图像的复杂信息检索任务的代理能力的框架。数据集的规模和特性:
- 包含3,333个高质量示例
- 平均3.7个跳转的逐步标注推理链
- 通过HAVE(Hop-wise Attribution and Verification of Evidence)保证质量
创新的评估指标(超越传统回答准确率的3个过程级别评估):
- LLM-as-a-Judge: 开放式推理质量评估
- Structure-Aware per Step Hit Rate: 分步检索精度测量
- Rollout Deviation: 执行漂移(偏离计划)的量化
Search-Align: 利用经过验证的推理链,通过过程监控微调来提升开源MLLM的规划和搜索精度。
MC-Search揭示的8种系统性错误模式(如搜索过多/过少、模态不匹配规划等)具体指出了实现者应避免的典型失败。
代理型推理的挑战与局限
可靠性与幻觉的放大
当代理在多个步骤中自主行动时,中间步骤的错误可能传播到后续步骤,从而放大最终的错误。
CARE-RFT(arXiv
.00085)直接解决了这种权衡问题。研究表明,虽然能提高推理性能的强化微调(RFT)也倾向于放大幻觉,但通过使用基于置信度的惩罚设计(如Skewed Inverse KL Divergence)可以缓解这个问题。成本与延迟
代理每次重复规划、执行、反思循环都会产生LLM的推理成本。复杂任务可能需要数十次LLM调用,这会成为实际应用的制约因素。
安全性与提示注入
引用外部数据的代理容易受到“提示注入”攻击,恶意内容可能诱导其执行非预期行为。沙盒设计和最小权限原则至关重要。
评估的困难
正如MC-Search所示,评估代理的性能比单轮问答要困难得多。设计合适的进程级别指标本身就是一个重要的研究课题。
应用领域:代理将如何改变各个领域
软件工程
这是代理型推理最活跃的应用领域之一。能够多步骤自主执行代码生成、调试、重构的代理已经出现,并在SWE-Bench等基准测试中取得了快速的性能提升。工程师的角色正从“写代码的人”转变为“给代理设定目标并验证成果的人”。
科学发现
能够自主重复实验设计、文献调查、假设生成、结果分析的代理正在改变科学研究的速度。在药物发现和材料科学领域的应用日益增多,预计将加速与人类研究人员的协作发现。
AI代理间的交互经济
Meta收购专注于AI代理的平台“Moltbook”,预示着代理之间通信和协作的“代理经济”的萌芽。身份验证和与人类所有者绑定的基础设施建设,已成为下一项挑战。
总结:四维度提供的设计指南
arXiv
.21460梳理的LLM代理研究现状表明,规划、工具使用、记忆、自我改进这四个维度并非独立模块,而是相互补充的系统。规划 ──────→ 工具使用
↑ │
│ ↓
自我改进 ←──── 记忆
工具使用(基于规划的外部操作)获得的见解被存储为记忆,积累的记忆成为自我改进的素材,改进后的能力则用于优化下一次规划。这种循环正是代理型AI的核心。
尽管MultiAgentBench和MC-Search等基准测试不断完善,但记忆的四层整合、防范提示注入、过程级别评估方法等仍是开放性课题。
在后缩放时代,LLM代理不仅是技术进步,更在重新定义人类与AI协作的方式。对这四个维度的系统性理解,已成为设计和利用代理的每个人不可或缺的基础知识。
参考文献
| 标题 | 信息源 | 日期 | URL |
|---|---|---|---|
| Large Language Model Agent: A Survey on Methodology, Applications and Challenges | arXiv | 2025/03/27 | https://arxiv.org/abs/2503.21460 |
| LLM-based Agentic Reasoning Frameworks: A Survey from Methods to Scenarios | arXiv | 2025/08 | https://arxiv.org/html/2508.17692v1 |
| The Landscape of Agentic Reinforcement Learning for LLMs: A Survey | arXiv | 2025/09 | https://arxiv.org/abs/2509.02547 |
| Memory for Autonomous LLM Agents: Mechanisms, Evaluation, and Emerging Frontiers | arXiv | 2026/03 | https://arxiv.org/html/2603.07670 |
| MC-Search: Evaluating and Enhancing Multimodal Agentic Search with Structured Long Reasoning Chains | arXiv | 2026/03/01 | https://arxiv.org/abs/2603.00873 |
| MultiAgentBench: Evaluating the Collaboration and Competition of LLM agents | arXiv / ACL 2025 | 2025/03/03 | https://arxiv.org/abs/2503.01935 |
| A-Mem: Agentic Memory for LLM Agents | arXiv | 2025/02 | https://arxiv.org/pdf/2502.12110 |
| Model Context Protocol — Wikipedia | Wikipedia | 2025 | https://en.wikipedia.org/wiki/Model_Context_Protocol |
| A Year of MCP: From Internal Experiment to Industry Standard | Pento Blog | 2025 | https://www.pento.ai/blog/a-year-of-mcp-2025-review |
| Agentic LLMs in 2025: How AI Is Becoming Self-Directed, Tool-Using & Autonomous | Data Science Dojo | 2025 | https://datasciencedojo.com/blog/agentic-llm-in-2025/ |
本文由 LLM 自动生成,内容可能存在错误。
