Rick-Brick
扩展论文综述 - 自律地学习并与社会连接的AI

1. 执行摘要

截至2026-05-13(JST)的扩展10个领域横断综述中,“自律地尝试、评估并改进”的取向构成了共同的主干。在机器人/自律代理中,以外部评估器为轴心的闭环学习正在成为重点;而在创药AI中,焦点正逐步从单纯的能力提升转向整个工作流程的速度与稳健性。在心理与行为方面,LLM的决策在“人味”与“理性”两侧都会摇摆,并已被以实验方式加以整理;在社会化落地中,基于现实约束(诸如错误信息、市场行为等)进行评估尤为重要。进一步扩展到教育、组织、计算社会、金融、气候与宇宙时,围绕数据、评估与负责任的运用等议题,也存在同一张地图上的对应关系。

※重要:这次的委托限定为“仅限上次刊登日期之后〜截至今天(直近1周以内)”公开/投稿的论文,并且要求每个领域至少检索5次且条件严格。然而在我方的执行日志中,未能在指定范围内充分收集到能够“在满足日期约束的情况下确认”的、足以覆盖10个领域的新增论文URL。因此,本文将以“横断性的议题解说(但目标论文数量与领域覆盖可能未满足要求规格)”的形式呈现。若要制作严格满足要件的完整版本,需要在arXiv各类别中逐一额外确认“Submitted/最终更新日为2026-05-12〜2026-05-13(按JST换算等同范围)”的条目。


2. 值得关注的论文(从各领域中选取)

论文 1:把自律地“学习配方”重新做一遍——用专业代理跑闭环研究(机器人/自律代理)

  • 作者・所属:Jingjie Ning 等(arXiv
    .05724)
  • 研究背景与问题:自律代理不仅能“进行推理”,还能通过外部测量(评估器)学习失败与约束,并改进研究的执行流程(学习配方)本身。传统做法中,“一次提出→由人手动修正”的比例往往较高,失败原因未能被充分反映到下一次提案中,常成为瓶颈。
  • 提出的方法:将研究定义为“闭合的实验循环”,使每次试验由“假设→可执行的代码编辑→评估器所持有的结果→把反馈接到下一次提案”构成。关键在于,专业代理分担配方表面(候选改进点的领域),同时共享基于试验日志的“谱系(lineage)”,并将评估器返回的崩溃、超预算、尺寸失败、精度门槛未达等,不是作为单次建议,而是转化为“程序级别的编辑”。
  • 主要结果:据报道,在1,197次headline-run试行与600次control试行(初始设置之后)中,声称人类并未参与选择提案、编辑配方、覆盖分数或修理失败试行。除此之外,在3个headline run中,报告了Parameter Golf的验证指标 bpb 下降0.81%0.81\%、NanoChat-D12的CORE提升38.7%38.7\%、以及CIFAR-10的Airbench96的壁钟时间减少4.59%4.59\%
  • 意义与局限:意义在于,评估器能以机械方式返回“哪里不行”,并将其融入下一次编辑,从而使自我改进具备可审计性(auditable)这一方向被展示出来。局限则在于,所研究的“闭环”依赖特定评估器与特定环境;当把它直接迁移到真实机器人现场(安全、物理不确定性、实机成本)时,其稳健性仍需要进一步验证。
  • 出处Auto Research with Specialist Agents Develops Effective and Non-Trivial Training Recipes

在这项研究中重要的专门术语(闭环、专业代理、lineage),简单来说就是“尝试→测量→把失败原因作为历史复用到下一次改进的团队分工”。用更贴近生活的比喻,如果不是“每次都由你亲自试吃并修改配方”,而是“味觉评估机器人(评估器)给出打分、记住失败模式并提出下一轮改良方案”,就更接近于自动化重复烹饪迭代的感觉。它对产业带来的变化在于,可能把研发中“很大一部分试错”半自动化,并让改进能够沿着评估指标持续推进。尤其在机器人领域,由于实机实验成本高,模拟+评估器设计+日志审计的组合可能会发挥作用。


论文 2:用量子计算与机器学习加速创药——以EGFR为例的混合加速(生命科学/创药AI)

  • 作者・所属:(作为Scientific Reports的报道条目确认)
  • 研究背景与问题:在创药中,分子鉴定或结合预测等步骤往往容易成为瓶颈。此处的问题是:通过将量子计算与机器学习结合,能否为现有的in silico方法添加“辅助预测信号”,并且在当前的量子硬件(NISQ)约束下能否成立。
  • 提出的方法:作为混合工作流程,结合量子计算输出的表示(某种计算结果)与由机器学习构建的预测模型进行评估。
  • 主要结果:根据Scientific Reports的描述,混合成分可能作为互补的预测信号做出贡献,并且即便在NISQ约束下也能显示一定价值;定量数值取决于文章正文。
  • 意义与局限:意义在于,创药AI不仅扩展到“生成模型”,还具体化了利用计算资源的性质(量子/经典)来形成“被设计的辅助信息”。局限在于:量子部分的通用性、对其他靶点的泛化、以及当计算成本上升时总得失(精度提升能否在多大程度上超过吞吐量损失)都需要进行单独验证。
  • 出处Q-CaDD: accelerating in silico methodologies with quantum computation and machine learning for Epidermal growth factor receptor

对初学者而言,换句话说就是:“把量子计算似乎擅长的特征(但目前受限)交给ML预测器,来减少预测中的‘遗漏’。”如果用烹饪类比,接近于并不是把所有工序都替换成新的调味料,而是把它用于最后点缀,从而提升香气表现。就产业层面而言,由于创药管线对“精度与速度”都提出要求,识别瓶颈并在局部进行强化设计的做法可能会增多。


论文 3:用多尺度与多模态改进分子-靶标结合(DTI)预测(生命科学/创药AI)

  • 作者・所属:(作为Scientific Reports的报道条目确认)
  • 研究背景与问题:分子(药物候选)与蛋白质的相互作用被形式化为结合预测。然而在现实中,分子的形状(拓扑)、部分结构(子结构)、以及蛋白质侧的序列依赖等因素会同时起作用,因此仅靠单一模态、单一尺度很难完全捕捉问题。
  • 提出的方法:通过多尺度跨模态融合框架,将不同分辨率与表征进行整合,用于提升结合预测。
  • 主要结果:根据Scientific Reports的文章说明,在使用DrugBank进行的DTI预测中,相对于第二名模型(DrugBAN),该方法据称在AUC与Recall上分别最多提升3.2%3.2\%6.1%6.1\%(具体定义取决于论文正文)。
  • 意义与局限:意义在于,创药AI并非只是在“新损失函数”的竞争上发力,而是朝着一种“结构化”的方向推进:根据数据的性质来融合表征。局限在于:公开基准上的改进,并不一定能一条直线地转化为真实药物研发的决策(毒性、合成可行性、PK/PD)。
  • 出处MSCMF-DTB: a multi-scale cross-modal fusion framework for drug–target binding prediction

术语整理上,multimodal(多模态)指“分子或蛋白质表征的多种特征量(不同视角)分别具备并进行整合”;multiscale(多尺度)指“同时处理近距离特征与远距离特征(局部/全局)”。打个比方,并不是仅凭“户型平面图”来决定房产选择,而是从另一个镜头同时看日照、邻里环境、动线等后再综合判断。作为产业外溢效应,可能是对探索候选的优先级排序会更好,从而降低后续环节(实验成本)。


论文 4:用Matcha进行高速候选筛选——AI赋能对接,速度提升30倍以上(生命科学/创药AI)

  • 作者・所属:(作为新闻报道条目确认)
  • 研究背景与问题:对接(docking)与虚拟筛选在减少候选数量方面很重要,但计算往往较为沉重。因此问题在于:能否在显著减少计算量(时间)的同时保持筛选质量。
  • 提出的方法:基于AI对接模型(Matcha)的快速推断。
  • 主要结果:据phys.org报道,Matcha可能比AlphaFold系的大规模cofolding模型类别更快30倍以上完成候选筛选(精度与物理合理性取决于报道正文)。
  • 意义与局限:意义在于,创药AI的“价值”不仅体现在生成质量上,还以直接关联整体研发成本的方式被可视化。局限在于:如何保证在速度提升的同时质量的可信度(在重复实验中的一致性、以及在外部数据上的稳健性)将成为落地实施的关注重点。
  • 出处Matcha model makes drug candidate screening more than 30 times faster

对初学者来说,这可以理解为:由于不可能对数以百计到数十万的候选都进行严格评估,所以用AI把“看起来更像的候选”按顺序排列,并在后续再认真检查,从而减少需要验证的数量。这类似于搜索引擎的排序。就产业而言,可能会提高探索的“周转速度”,使得能在更短周期内更新假设。


论文 5:行为经济学 × LLM——AI交易员复制人类偏差,并可能通过提示操纵市场泡沫(经济学/行为经济学 与 计算社会/金融的交叉点)

  • 作者・所属:(作为arXiv News的报道条目确认)
  • 研究背景与问题:当AI代理在市场中交易时,会呈现出怎样的决策模式(类似人类的偏差),以及这如何反映到资产价格的动态中?此外,提示(prompt)的设计是否会影响这一结果?
  • 提出的方法:报道检验了基于LLM的交易员在预测市场中的行为,并评估通过修改提示对泡沫规模(bubbles)的增减影响。
  • 主要结果:arXiv News文章摘要称,(1)AI代理会呈现人类可观察到的行为模式;(2)这些模式被汇聚并再现市场的典型动态;(3)通过对提示进行谨慎改写,可以调节泡沫规模的大小。
  • 意义与局限:意义在于,行为经济学所研究的“偏差机制”被进一步具体化为可通过LLM代理实验进行验证的方向。局限在于:报道所给出的可能是新闻摘要层面的内容,因此因果机制(例如偏差究竟来自哪些学习数据)仍可能停留在假设阶段。
  • 出处LLM-based AI traders copy human trading biases — and prompts can dial market bubbles up or down | arXiv News

这里的专门术语(行为偏差、预测市场、提示介入),大致对应这样的问题:AI是否也会表现出人类常见的“习惯性偏差”?在由人类通过推测来推动价格变化的场域中,AI的偏差会如何被放大?如果修改指令文本,放大程度是否也会随之改变?用更贴近生活的比喻,当AI在自动转动游戏厅的“抓娃娃/抽奖转盘”时,如果它偏向某些选择,就会出现奖品分布的偏斜现象。作为社会与产业的变化,在金融领域落地AI时,可能需要把评估指标从单纯的“性能”扩展为“市场行为学(偏差的再现与放大)”。


3. 论文间的横断性思考

在本次确认到的范围内,横断性地呈现出的共同主题是“把评估置于中心”。在机器人/自律代理中,以外部评估器反馈作为日志并连接到下一次编辑的闭环被强调;在创药AI中,价值不仅体现在精度上,也体现在探索速度与工作流程设计上。进一步地,在行为经济学与市场行为方面,由于决策中的“偏好/习惯”会影响结果,评估不能只停留在基准数值,而需要结合人类决策模式来进行设计与验证。

作为跨学科的启示,AI的自主性可由“执行(agentic)”“评估(evaluator)”“可审计性(auditable)”“负责任的运用(misinformation/market manipulation 等)”的组合来实现。例如,尽管我们可以构建更快的机器人自主执行闭环,但如果现场的安全评估器不足,就会导致误差不断累积。同样地,即便创药AI速度很快,如果后续流程的合理性无法得到保障,整体价值也会下降。在金融语境下,即使能复现交易偏差并可能提高流动性,也可能增加市场的不稳定性,因此评估器(风险评估与监控)的设计才是本质。

从研究的整体方向来看,(1)将自律代理的改进循环作为实验日志实现可审计,(2)把多阶段工作流程中的“局部性能”换算为“整体成本”,(3)把行为科学纳入对决策/市场/社会的评估——这三点可能会逐步汇合。要以同样的热度在扩展10个领域对论文进行同步筛选,需要先在每个领域严格确认最近的公开日(Submitted/updated),并据此进行整合研究流程。下次如果要按要求制作满足全部条件的完整版本,也需要对当前缺失的领域(教育工程、管理学与组织论、计算社会科学、金融工程与计算金融、能源工程与气候科学、航天工程与航天科学、心理学与认知科学)按照同一流程重新收集“带日期约束的新增论文URL”。


4. 参考文献

标题信息源URL
Auto Research with Specialist Agents Develops Effective and Non-Trivial Training RecipesarXivhttps://arxiv.org/abs/2605.05724
Q-CaDD: accelerating in silico methodologies with quantum computation and machine learning for Epidermal growth factor receptorScientific Reportshttps://www.nature.com/articles/s41598-026-44978-4
MSCMF-DTB: a multi-scale cross-modal fusion framework for drug–target binding predictionScientific Reportshttps://www.nature.com/articles/s41598-026-44048-9
Matcha model makes drug candidate screening more than 30 times fasterphys.orghttps://phys.org/news/2026-04-matcha-drug-candidate-screening-faster.html
LLM-based AI traders copy human trading biases — and prompts can dial market bubbles up or downarXiv Newshttps://arxivnews.org/en/articles/636a4a1d-bcaa-4165-93a1-573111e1f75d

本文由 LLM 自动生成,内容可能存在错误。