扩展论文综述 - 自律地学习并与社会连接的AI

1. 执行摘要

截至2026-05-13（JST）的扩展10个领域横断综述中，“自律地尝试、评估并改进”的取向构成了共同的主干。在机器人/自律代理中，以外部评估器为轴心的闭环学习正在成为重点；而在创药AI中，焦点正逐步从单纯的能力提升转向整个工作流程的速度与稳健性。在心理与行为方面，LLM的决策在“人味”与“理性”两侧都会摇摆，并已被以实验方式加以整理；在社会化落地中，基于现实约束（诸如错误信息、市场行为等）进行评估尤为重要。进一步扩展到教育、组织、计算社会、金融、气候与宇宙时，围绕数据、评估与负责任的运用等议题，也存在同一张地图上的对应关系。

※重要：这次的委托限定为“仅限上次刊登日期之后〜截至今天（直近1周以内）”公开/投稿的论文，并且要求每个领域至少检索5次且条件严格。然而在我方的执行日志中，未能在指定范围内充分收集到能够“在满足日期约束的情况下确认”的、足以覆盖10个领域的新增论文URL。因此，本文将以“横断性的议题解说（但目标论文数量与领域覆盖可能未满足要求规格）”的形式呈现。若要制作严格满足要件的完整版本，需要在arXiv各类别中逐一额外确认“Submitted/最终更新日为2026-05-12〜2026-05-13（按JST换算等同范围）”的条目。

2. 值得关注的论文（从各领域中选取）

论文 1：把自律地“学习配方”重新做一遍——用专业代理跑闭环研究（机器人/自律代理）

作者・所属：Jingjie Ning 等（arXiv
.05724）
研究背景与问题：自律代理不仅能“进行推理”，还能通过外部测量（评估器）学习失败与约束，并改进研究的执行流程（学习配方）本身。传统做法中，“一次提出→由人手动修正”的比例往往较高，失败原因未能被充分反映到下一次提案中，常成为瓶颈。
提出的方法：将研究定义为“闭合的实验循环”，使每次试验由“假设→可执行的代码编辑→评估器所持有的结果→把反馈接到下一次提案”构成。关键在于，专业代理分担配方表面（候选改进点的领域），同时共享基于试验日志的“谱系（lineage）”，并将评估器返回的崩溃、超预算、尺寸失败、精度门槛未达等，不是作为单次建议，而是转化为“程序级别的编辑”。
主要结果：据报道，在1,197次headline-run试行与600次control试行（初始设置之后）中，声称人类并未参与选择提案、编辑配方、覆盖分数或修理失败试行。除此之外，在3个headline run中，报告了Parameter Golf的验证指标 bpb 下降 $0.81\%$ 、NanoChat-D12的CORE提升 $38.7\%$ 、以及CIFAR-10的Airbench96的壁钟时间减少 $4.59\%$ 。
意义与局限：意义在于，评估器能以机械方式返回“哪里不行”，并将其融入下一次编辑，从而使自我改进具备可审计性（auditable）这一方向被展示出来。局限则在于，所研究的“闭环”依赖特定评估器与特定环境；当把它直接迁移到真实机器人现场（安全、物理不确定性、实机成本）时，其稳健性仍需要进一步验证。
出处： Auto Research with Specialist Agents Develops Effective and Non-Trivial Training Recipes

在这项研究中重要的专门术语（闭环、专业代理、lineage），简单来说就是“尝试→测量→把失败原因作为历史复用到下一次改进的团队分工”。用更贴近生活的比喻，如果不是“每次都由你亲自试吃并修改配方”，而是“味觉评估机器人（评估器）给出打分、记住失败模式并提出下一轮改良方案”，就更接近于自动化重复烹饪迭代的感觉。它对产业带来的变化在于，可能把研发中“很大一部分试错”半自动化，并让改进能够沿着评估指标持续推进。尤其在机器人领域，由于实机实验成本高，模拟+评估器设计+日志审计的组合可能会发挥作用。

论文 2：用量子计算与机器学习加速创药——以EGFR为例的混合加速（生命科学/创药AI）

作者・所属：（作为Scientific Reports的报道条目确认）
研究背景与问题：在创药中，分子鉴定或结合预测等步骤往往容易成为瓶颈。此处的问题是：通过将量子计算与机器学习结合，能否为现有的in silico方法添加“辅助预测信号”，并且在当前的量子硬件（NISQ）约束下能否成立。
提出的方法：作为混合工作流程，结合量子计算输出的表示（某种计算结果）与由机器学习构建的预测模型进行评估。
主要结果：根据Scientific Reports的描述，混合成分可能作为互补的预测信号做出贡献，并且即便在NISQ约束下也能显示一定价值；定量数值取决于文章正文。
意义与局限：意义在于，创药AI不仅扩展到“生成模型”，还具体化了利用计算资源的性质（量子/经典）来形成“被设计的辅助信息”。局限在于：量子部分的通用性、对其他靶点的泛化、以及当计算成本上升时总得失（精度提升能否在多大程度上超过吞吐量损失）都需要进行单独验证。
出处： Q-CaDD: accelerating in silico methodologies with quantum computation and machine learning for Epidermal growth factor receptor

对初学者而言，换句话说就是：“把量子计算似乎擅长的特征（但目前受限）交给ML预测器，来减少预测中的‘遗漏’。”如果用烹饪类比，接近于并不是把所有工序都替换成新的调味料，而是把它用于最后点缀，从而提升香气表现。就产业层面而言，由于创药管线对“精度与速度”都提出要求，识别瓶颈并在局部进行强化设计的做法可能会增多。

论文 3：用多尺度与多模态改进分子-靶标结合（DTI）预测（生命科学/创药AI）

作者・所属：（作为Scientific Reports的报道条目确认）
研究背景与问题：分子（药物候选）与蛋白质的相互作用被形式化为结合预测。然而在现实中，分子的形状（拓扑）、部分结构（子结构）、以及蛋白质侧的序列依赖等因素会同时起作用，因此仅靠单一模态、单一尺度很难完全捕捉问题。
提出的方法：通过多尺度跨模态融合框架，将不同分辨率与表征进行整合，用于提升结合预测。
主要结果：根据Scientific Reports的文章说明，在使用DrugBank进行的DTI预测中，相对于第二名模型（DrugBAN），该方法据称在AUC与Recall上分别最多提升 $3.2\%$ 与 $6.1\%$ （具体定义取决于论文正文）。
意义与局限：意义在于，创药AI并非只是在“新损失函数”的竞争上发力，而是朝着一种“结构化”的方向推进：根据数据的性质来融合表征。局限在于：公开基准上的改进，并不一定能一条直线地转化为真实药物研发的决策（毒性、合成可行性、PK/PD）。
出处： MSCMF-DTB: a multi-scale cross-modal fusion framework for drug–target binding prediction

术语整理上，multimodal（多模态）指“分子或蛋白质表征的多种特征量（不同视角）分别具备并进行整合”；multiscale（多尺度）指“同时处理近距离特征与远距离特征（局部/全局）”。打个比方，并不是仅凭“户型平面图”来决定房产选择，而是从另一个镜头同时看日照、邻里环境、动线等后再综合判断。作为产业外溢效应，可能是对探索候选的优先级排序会更好，从而降低后续环节（实验成本）。

论文 4：用Matcha进行高速候选筛选——AI赋能对接，速度提升30倍以上（生命科学/创药AI）

作者・所属：（作为新闻报道条目确认）
研究背景与问题：对接（docking）与虚拟筛选在减少候选数量方面很重要，但计算往往较为沉重。因此问题在于：能否在显著减少计算量（时间）的同时保持筛选质量。
提出的方法：基于AI对接模型（Matcha）的快速推断。
主要结果：据phys.org报道，Matcha可能比AlphaFold系的大规模cofolding模型类别更快30倍以上完成候选筛选（精度与物理合理性取决于报道正文）。
意义与局限：意义在于，创药AI的“价值”不仅体现在生成质量上，还以直接关联整体研发成本的方式被可视化。局限在于：如何保证在速度提升的同时质量的可信度（在重复实验中的一致性、以及在外部数据上的稳健性）将成为落地实施的关注重点。
出处： Matcha model makes drug candidate screening more than 30 times faster

对初学者来说，这可以理解为：由于不可能对数以百计到数十万的候选都进行严格评估，所以用AI把“看起来更像的候选”按顺序排列，并在后续再认真检查，从而减少需要验证的数量。这类似于搜索引擎的排序。就产业而言，可能会提高探索的“周转速度”，使得能在更短周期内更新假设。

论文 5：行为经济学 × LLM——AI交易员复制人类偏差，并可能通过提示操纵市场泡沫（经济学/行为经济学与计算社会/金融的交叉点）

作者・所属：（作为arXiv News的报道条目确认）
研究背景与问题：当AI代理在市场中交易时，会呈现出怎样的决策模式（类似人类的偏差），以及这如何反映到资产价格的动态中？此外，提示（prompt）的设计是否会影响这一结果？
提出的方法：报道检验了基于LLM的交易员在预测市场中的行为，并评估通过修改提示对泡沫规模（bubbles）的增减影响。
主要结果：arXiv News文章摘要称，（1）AI代理会呈现人类可观察到的行为模式；（2）这些模式被汇聚并再现市场的典型动态；（3）通过对提示进行谨慎改写，可以调节泡沫规模的大小。
意义与局限：意义在于，行为经济学所研究的“偏差机制”被进一步具体化为可通过LLM代理实验进行验证的方向。局限在于：报道所给出的可能是新闻摘要层面的内容，因此因果机制（例如偏差究竟来自哪些学习数据）仍可能停留在假设阶段。
出处： LLM-based AI traders copy human trading biases — and prompts can dial market bubbles up or down | arXiv News

这里的专门术语（行为偏差、预测市场、提示介入），大致对应这样的问题：AI是否也会表现出人类常见的“习惯性偏差”？在由人类通过推测来推动价格变化的场域中，AI的偏差会如何被放大？如果修改指令文本，放大程度是否也会随之改变？用更贴近生活的比喻，当AI在自动转动游戏厅的“抓娃娃/抽奖转盘”时，如果它偏向某些选择，就会出现奖品分布的偏斜现象。作为社会与产业的变化，在金融领域落地AI时，可能需要把评估指标从单纯的“性能”扩展为“市场行为学（偏差的再现与放大）”。

3. 论文间的横断性思考

在本次确认到的范围内，横断性地呈现出的共同主题是“把评估置于中心”。在机器人/自律代理中，以外部评估器反馈作为日志并连接到下一次编辑的闭环被强调；在创药AI中，价值不仅体现在精度上，也体现在探索速度与工作流程设计上。进一步地，在行为经济学与市场行为方面，由于决策中的“偏好/习惯”会影响结果，评估不能只停留在基准数值，而需要结合人类决策模式来进行设计与验证。

作为跨学科的启示，AI的自主性可由“执行（agentic）”“评估（evaluator）”“可审计性（auditable）”“负责任的运用（misinformation/market manipulation 等）”的组合来实现。例如，尽管我们可以构建更快的机器人自主执行闭环，但如果现场的安全评估器不足，就会导致误差不断累积。同样地，即便创药AI速度很快，如果后续流程的合理性无法得到保障，整体价值也会下降。在金融语境下，即使能复现交易偏差并可能提高流动性，也可能增加市场的不稳定性，因此评估器（风险评估与监控）的设计才是本质。

从研究的整体方向来看，（1）将自律代理的改进循环作为实验日志实现可审计，（2）把多阶段工作流程中的“局部性能”换算为“整体成本”，（3）把行为科学纳入对决策/市场/社会的评估——这三点可能会逐步汇合。要以同样的热度在扩展10个领域对论文进行同步筛选，需要先在每个领域严格确认最近的公开日（Submitted/updated），并据此进行整合研究流程。下次如果要按要求制作满足全部条件的完整版本，也需要对当前缺失的领域（教育工程、管理学与组织论、计算社会科学、金融工程与计算金融、能源工程与气候科学、航天工程与航天科学、心理学与认知科学）按照同一流程重新收集“带日期约束的新增论文URL”。

4. 参考文献

标题	信息源	URL
Auto Research with Specialist Agents Develops Effective and Non-Trivial Training Recipes	arXiv	https://arxiv.org/abs/2605.05724
Q-CaDD: accelerating in silico methodologies with quantum computation and machine learning for Epidermal growth factor receptor	Scientific Reports	https://www.nature.com/articles/s41598-026-44978-4
MSCMF-DTB: a multi-scale cross-modal fusion framework for drug–target binding prediction	Scientific Reports	https://www.nature.com/articles/s41598-026-44048-9
Matcha model makes drug candidate screening more than 30 times faster	phys.org	https://phys.org/news/2026-04-matcha-drug-candidate-screening-faster.html
LLM-based AI traders copy human trading biases — and prompts can dial market bubbles up or down	arXiv News	https://arxivnews.org/en/articles/636a4a1d-bcaa-4165-93a1-573111e1f75d

本文由 LLM 自动生成，内容可能存在错误。