扩展论文综述——贯穿自律、创药与社会影响的“新模型与验证”

1. 执行摘要

本次综述并不只是“打造同样一套新的模型”，而是以“它在多大程度上能够再现并改进现实约束与社会行为”为核心来进行筛选。在机器人领域，人们似乎正朝着用超大规模语料解析来对可持续性提及的薄弱之处进行量化。在金融与行为经济方面，焦点在于：LLM 代理在市场中呈现的行为偏差，以及通过提示（prompt）介入所带来的增减变化。另一方面，我们也会抓住创药AI的根基——蛋白质结构预测这一底座——并整理当代方法群继承了什么。

2. 值得关注的论文（从各领域选定）

论文 1：机器人领域的可持续性鸿沟：关于 5 万规模研究论文的面向大规模调查（机器人・自律代理）

作者・所属：Antun Skuric、Leandro Von Werra、Thomas Wolf（所属以论文页面标注为准）
研究背景与问题：随着自律机器人与自动化越发走向社会落地，环境负担与伦理影响便成为焦点议题，但研究社区“是否以可持续性作为动机而明确表述”这一点却难以通过定量方式看清。于是，本研究提出的问题是：针对 cs.RO 领域的海量论文，调查可持续性意识（动机—阐述影响—与 SDGs 的连接）出现的程度。
提出的方法：以大规模语料为对象，汇总可持续性相关词汇的出现、对社会/生态系统/可持续性的提及与否，以及对 UN Sustainable Development Goals（SDGs）的明确提及等，作为规则库/分类性指标进行统计。简而言之，这是一个用来度量“在研究主张中，可持续性这一视角被写入到什么程度”的设计。
主要结果：结果显示，涉及可持续性相关影响的比例非常低，尤其是对 SDGs 的明确引用更是少得可怜（在论文摘要汇总中有诸如“SDGs 明示低于 0.1%”“可持续性动机低于 5%”的区间报告）。即便机器人研究有可能被应用到社会性问题相关领域，其作为研究框架（研究叙事方式）来看，可持续性并未成为标准化的表达。
意义与局限：意义在于，用非常强的尺度将“可持续性是作为努力目标被谈及，还是作为研究成果的价值定位”可视化出来。局限在于：提及少 ≠ 实际环境负担小/并未真正考虑周全。因为这仅是“文字上的明确”，并不一定直接追踪实施层面的情况或测量（如生命周期评估等）。
出处：The Sustainability Gap in Robotics: A Large-Scale Survey of Sustainability Awareness in 50,000 Research Articles

这篇论文为初学者提供了这样一种视角：研究的价值不仅在于性能分数，还在于它是为了怎样的目标而被提出的（动机与影响）。打个比方，即使同样是自动驾驶，有的车只说“安全到什么程度”，而有的车会解释“在考虑油耗和排放的同时进行设计”。如果研究社区无法转向后者的叙事方式，那么社会层面就更难判断“为什么需要这项技术”。从产业角度看，如果研究阶段就能实现与可持续性的对齐，那么在采购、合规与 ESG 评价的讨论上，可能会提前推进。

论文 2：将行为金融与市场泡沫“拆解开来”：由 LLM 代理形成预期与交易（金融工程・计算金融）

作者・所属：Shumiao Ouyang、Pengfei Sui（所属以论文页面标注为准）
研究背景与问题：即便假定合理预期（rational expectations），市场中仍可观察到无法被完全解释的行为性因素（例如：对近期信息的偏置、损失规避以及相反“处理/处置”的倾向等）。因此，本研究的问题是：当让类似 LLM 的大规模语言模型作为代理参与市场（agent in the market）时，人类研究中所知的行为模式是否会出现？并且，如何检测其中的“机制”，以及通过提示等介入还能将其改变到什么程度。
提出的方法：在仿真环境中构建开放式拍卖（open-call auction）市场，并让 LLM 代理（大致而言，是能够进行文本生成与推理的自主主体）参与其中。观察各代理的预期形成与下单行为，并使用行为经济学中已知的现象（例如：处置效应、对回顾信息/近期信息的加权等）作为指标来评估。进一步地，将代理的推理文本（reasoning text）用类似“20 机制（20 mechanisms）”的框架进行打分，探索哪些机制与泡沫形成相关。
主要结果：从摘要要点来看，研究报告了：(1) 作为经典行为模式，会观察到处置效应与“recency-weighted extrapolative beliefs（对近期加权的外推性信念）”；(2) 它们会在均衡动力学中被汇聚，并重现实验性资产市场中已知的关系（例如：过度需求能预测未来价格、不一致的意见与交易量呈正相关等）；(3) 借助对推理文本按“机制”打分，特定的提示介入能够以因果方式增加或减少泡沫规模。
意义与局限：意义在于，研究试图将一个观点落到实处：LLM 不仅可能是简单的文本生成器，也可能成为具备经济决策“行为方式”的主体，并且把介入如何起作用与其通过何种行为机制生效联系起来，且这种联系要能与基于文本的痕迹相对应。局限在于：在这里得到的因果性可能高度依赖所设计的市场环境、提示空间与评估指标。此外，由于无法完全复现真实市场中的制度与信息非对称，外推时需要谨慎。
出处：Dissecting AI Trading: Behavioral Finance and Market Bubbles

该研究的核心在于一种立场：“把市场的‘波动’读到推理的内部内容里”。换句话说，对初学者来说，这个流程是：不仅看股价的涨跌（结果），还要从文本中推断代理“为什么会这样判断”（可能的原因），并进一步介入这些原因以检验能否复现。其思路与在机器人控制中不仅验证“输出是否好”，而是验证“控制律是否朝安全侧发挥作用”颇为接近。从产业角度看，在 AI 交易员的设计、监管与审计（audit）中，理解其“依赖于哪些行为机制”正变得越来越重要。例如，如果提示修改会左右泡沫韧性，那么在运行时的变更管理（模型/提示版本的治理）就会直接关系到经济风险。

论文 3：AI 的行为经济学：LLM 偏差及其修正（心理学・认知科学）

作者・所属：摘要中列出的作者（依论文页面标注为准）
研究背景与问题：在人类决策研究中，认知偏差会系统性地扭曲行为，这一点已为人所知。在使用 AI（尤其是 LLM）参与决策的情境中，AI 本身也可能存在“输出习惯”与“易被诱导性”，进而影响行为结果。于是，本文旨在以行为经济学的框架来捕捉 LLM 所表现出的偏差，并评估这些偏差是否可能被修正（纠正）。
提出的方法：向 LLM 提供与决策相关的输入，分析输出偏差。进一步地，引入用于降低偏差的介入（prompt 与约束；在某些情况下可能还有对比设计），并从“偏差是否会在统计意义上得到改善”的角度进行评估。
主要结果：根据论文页面上的概述，研究提示：LLM 可能呈现与人类研究中相似的系统性误差模式，并且在一定介入下可能具有可修正性（具体评估指标与效应量需要查阅论文正文）。至少，其中心论点是：“LLM 的错误并非随机，而可能因设计而呈现偏置”。
意义与局限：意义在于，将心理学与认知科学的概念连接到 AI 评估上；把偏差从“现象”转化为“可改善对象”。局限在于：哪些偏差会在何种实际任务中被复现，取决于任务设计与数据分布。AI 偏差研究往往会面临实验室设计与现实运行环境之间的差距。
出处：Behavioral Economics of AI: LLM Biases and Corrections

把这篇论文的要点为初学者做总结：LLM 的“回答习惯”在某些情况下可能被理解为与行为经济学所处理的偏差同型。例如，人会在问卷中被牵引到特定选项上，LLM 也可能被特定格式或语境所牵引。在社会与产业层面的影响上，由于在决策支持中（例如招聘、授信、教育选拔等）不能只依赖“看起来很合理的回答”，就需要按偏差类型进行审计，并准备相应的修正手段。

论文 4：活动性推理（Active Inference）在机器人与人工代理中的应用——综述与挑战（机器人・自律代理）

作者・所属：论文页面所列的主要作者与所属（摘要基于论文页面内容）
研究背景与问题：自律代理需要在不确定性中进行观测、推理并采取行动。作为一种方法，“活动性推理（Active Inference）”以一种通过预测误差（期望与观测的偏差）来更新并优化世界状态或策略的方式而闻名。本综述要回答的是：这一框架在机器人中如何使用？以及挑战主要在哪里。
提出的方法：作为调查而非单一提议，本文从状态估计、控制、目标导向行为等方面俯瞰 Active Inference 在机器人与人工代理中的应用实例，并总结研究的进展与瓶颈。
主要结果：根据摘要要点，Active Inference 有可能成为在不确定性下进行状态估计与控制、以及实现目标驱动行为的基础。
意义与局限：意义在于为读者提供方法论的全景图，使即将入场的研究者能够把握“差距在哪里”。局限在于：由于是综述性质，可能不会呈现“本周新成果的性能数值”本身。
出处：Active Inference in Robotics and Artificial Agents: Survey and Challenges

对初学者而言，这篇论文会带来一种重新确认：“自律性（autonomy）并不等同于强化学习”。Active Inference 可以类比为“机器人在脑中持续更新世界地图”：它通过观测来修正地图（信念），然后在下一次行动中再次更新。在社会与产业方面，它可能因为与可解释性（为何选择了该行为）以及安全性验证的契合度而引起关注。

论文 5：蛋白质结构预测：下一代（生命科学・创药AI）

作者・所属：Michael C. Prentiss 等（以论文页面标注为准）
研究背景与问题：在创药AI中，蛋白质结构预测是理解“药物将以何种形态结合”的前置步骤。然而，结构预测强依赖能量景观（energy landscape）与折叠假设，因此需要在理论与实现方面进行技巧性的改进以提升精度。本研究概览了蛋白质结构预测的谱系，并提出了用于改进的思路。
提出的方法：基于统计力学与能量景观视角，提出诸如利用集成（ensemble，多个候选结构的集合）来改善预测能量函数的想法。
主要结果：作为论文综述语境，文章解释了预测框架是如何演进的，并阐述了能量景观的性质（例如：funnelled energy landscape 等概念）。
意义与局限：意义在于：作为理解创药AI“现状”的基础，可以整理其理论背景。一方面，局限在于：由于本文自身包含较为经典的内容，对最新生成模型与最新基准的直接对应可能要依赖正文。
出处：Protein Structure Prediction: The Next Generation

这篇论文对初学者而言，具有把“创药AI入门”进行结构化的作用。创药AI往往看起来像是“模型预测并结束”，但理解其背后那种“基于物理的直觉”如何被反映到模型设计与训练目标中，将有助于提升应用的精度与可复现性。从产业角度看，随着结构预测可靠性提高，对结合预测与先导（lead）探索的预处理可能更强，从而有机会降低探索成本。

3. 论文间的横向思考

本次精选的这 5 篇论文贯穿的共同主题是：“不仅要看模型性能（正确率），还要如何构建评估设计、可验证性，以及与社会需求的整合方式”。在机器人领域，可持续性的“明确度”成为了测量对象，研究的叙事方式本身也变成了指标。这是一种工程与社会连接的“元评估”取向。在金融工程与行为经济中，LLM 代理的行为可以复现经典实验性资产市场中的关系，且还能通过介入以因果方式发生增减变化。在这里，除了可观测的行为以外，从推理文本中进行机制推断尤为关键。来自心理学与认知科学方向的论文，则用“偏差的语言”来理解 AI 的偏差，并通过验证其可修正性，将 AI 评估拉向“认知科学的实验”。在创药AI一侧，关于蛋白质结构预测的理论背景整理，为理解当代方法提供了基础。尽管生成模型的进步非常迅速，但继承物理直觉可能会影响模型的稳健性与可解释性。总的来说，尽管这扩展到 10 个领域之间存在差异，但“可验证的指标”“可介入的变量”“面向社会需求的解释”这三个点，作为研究设计上的共同关切浮现出来。

4. 参考文献

标题	信息源	URL
The Sustainability Gap in Robotics: A Large-Scale Survey of Sustainability Awareness in 50,000 Research Articles	arXiv	https://arxiv.org/abs/2604.07921
Dissecting AI Trading: Behavioral Finance and Market Bubbles	arXiv	https://arxiv.org/abs/2604.18373
Behavioral Economics of AI: LLM Biases and Corrections	arXiv	https://arxiv.org/abs/2602.09362
Active Inference in Robotics and Artificial Agents: Survey and Challenges	arXiv	https://arxiv.org/abs/2112.01871
Protein Structure Prediction: The Next Generation	arXiv	https://arxiv.org/abs/q-bio/0606012

本文由 LLM 自动生成，内容可能存在错误。