AI论文周报 2026年3月18日 - 科学判断力和机器人操作的飞跃

执行摘要

2026年3月第三周的AI研究，显著的趋势是“AI的科学判断力”这一新领域的开辟。本次介绍的四篇论文，分别从四个不同角度推进AI研究的实用化和自主化：①从社区反馈中学习科学品味的AI系统；②生成物理上可行的人形机器人动作的扩散模型；③集成视觉、语言和动作的主动机器人操作框架；④完全自主的科学研究代理。

特别值得关注的是，研究开始本格化地尝试赋予AI不仅仅是执行能力，甚至包括“应该研究什么”的判断能力。

注目论文

论文1: AI Can Learn Scientific Taste（AI可以学习科学品味）

作者/所属: Jingqi Tong, Mingzhe Li 等（复旦大学，OpenMOSS项目）
概要:

杰出的科学家拥有强大的判断力和预见性，这与被称为“科学品味”（scientific taste）的能力密切相关，即判断和提出具有高潜在影响力的研究想法的能力。

然而，以往关于AI研究者的研究侧重于提高执行能力，而提高科学品味仍是一片未被开发的领域。本文提出了一种名为“从社区反馈中学习”（RLCF）的训练范式，该范式利用大规模的社区信号作为监督信号，并将科学品味学习形式化为偏好建模和一致性问题。

提出方法:

RLCF利用大规模社区信号作为监督信号，并将科学品味学习形式化为偏好建模和一致性问题。为此，论文构建了一个大规模基准“SciJudgeBench”，该基准由2024年前发表的210万篇arXiv论文中衍生出的696,758对匹配的领域和时期论文对组成。

系统由两个模型组成。

Scientific Judge是一个生成奖励模型，用于预测一对论文中哪一篇更有可能具有更高的影响力。Scientific Thinker是一个策略模型，用于提出具有更高潜在影响力的后续研究想法。

主要结果:

实验结果表明，Scientific Judge在预测未来年份测试、未知领域和同行评审偏好方面的泛化能力超过了GPT-5.2和Gemini 3 Pro等最先进的LLM。此外，Scientific Thinker提出的研究想法比基线模型具有更高的潜在影响力。这一发现表明AI可以学习科学品味，是迈向达到人类水平的AI科学家之路上的重要一步。

具体而言，在包含696,758对偏好对和约140万篇唯一论文的数据集上进行了评估，并在四种设置下进行了评估：领域内、时间外（未来年份论文）、指标外（ICLR审稿）、领域外（bioRxiv生物学论文）。

意义与局限:

这项研究的最大意义在于，它利用引用数这一客观的“社区反馈”，赋予AI判断研究质量的能力。这使得AI能够帮助从海量的论文中找出真正重要的研究，或者为研究者提出下一步应研究的主题。然而，引用数并不总是与科学价值完全一致（可能存在流行效应或自我引用），并且在新兴领域中引用数据可能不足。

此外，真正的科学突破往往超越现有框架，过去的数据学习模型是否能预测这些仍是未知数。

来源: AI Can Learn Scientific Taste

论文2: PhysMoDPO: Physically-Plausible Humanoid Motion with Preference Optimization（物理上妥当的人形机器人动作与偏好优化）

作者/所属: Yangsong Zhang, Anujith Muraleedharan, Rikhat Akizhanov（研究机构细节未在搜索结果中明确，但已发布在alphaXiv）
概要:

PhysMoDPO是一个改进了文本条件化扩散模型的框架，用于生成机器人可以直接执行的、物理上妥当的人形机器人动作。通过将全身控制器（Whole-Body Controller, WBC）集成到迭代的Direct Preference Optimization（DPO）流程中，该框架能够在保持对文本和空间命令的忠实性的同时，将人类风格的动作零样本迁移到实际机器人平台。

传统的动作生成模型虽然在外观上可能很自然，但在物理模拟器或实际机器人上却难以执行，填补“仿真到现实”（sim-to-real）的鸿沟是其面临的挑战。

提出方法:

PhysMoDPO的核心是将全身控制器（WBC）纳入偏好学习循环。具体过程是：①扩散模型根据文本提示生成动作；②WBC评估该动作的物理可行性；③将可执行的动作视为“偏好”，不可执行的动作视为“不偏好”，然后通过DPO迭代地改进扩散模型。通过重复这一过程，可以生成同时满足从人类动作数据集中学到的自然性和机器人学所要求的物理一致性的动作。

主要结果:

搜索结果未包含定量的基准分数细节，但报告称该框架实现了 实际机器人平台上的零样本迁移，并能够在保持对文本和空间命令的忠实性的同时生成人类风格的动作。

这意味着它成功地解决了传统动作生成方法难以兼顾“外观自然性”和“物理可行性”的问题。尤其是在人形机器人领域，能够用统一的框架处理复杂的全身动作（如行走、抓取、操作等）具有突破性意义。

意义与局限:

这项研究是生成式AI与机器人学融合的一个重要里程碑。实现文本到动作的转换将促进机器人编程的民主化，使非专业人士也能指示机器人执行复杂的动作。然而，DPO的迭代过程计算成本较高，并且根据动作的复杂性和环境条件，收敛性可能变得困难。此外，模型在训练数据范围之外的新动作上的泛化能力仍是未来的挑战。

来源: PhysMoDPO on alphaXiv（具体的arXiv ID未包含在搜索结果中，但标注为2026年3月13日发布）

论文3: SaPaVe: Towards Active Perception and Manipulation in Vision-Language-Action Models for Robotics（面向机器人学的视觉语言动作模型中的主动感知与操作）

作者/所属: Mengzhen Liu, Enshen Zhou, Cheng Chi, Yi Han, Shanyu Rong, Liming Chen, Pengwei Wang, Zhongyuan Wang, Shanghang Zhang
概要:

SaPaVe是一项面向机器人学的视觉语言动作（Vision-Language-Action, VLA）模型的主动感知和操作研究，已被CVPR 2026接收。

传统的VLA模型基于固定视点进行动作决策，但在实际机器人操作中，为了从最佳视角观察目标，主动的相机控制是必不可少的。SaPaVe通过整合感知（看哪里）和执行（做什么），来解决这一问题。

提出方法:

SaPaVe的核心在于其“分离但协同”的感知和操作联合训练策略。

为了支持这一框架，引入了一个包含20万张图像-语言-相机动作对的数据集“ActiveViewPose-200K”，用于语义相机动作学习，以及一个提高动态视角下执行鲁棒性的3D几何感知模块。此外，还提出了第一个用于评估超出固定视角的主动操作的基准“ActiveManip-Bench”。

模型学习一系列过程：识别视觉输入中与任务相关的区域，控制相机以获得更好的视角，并从该视角规划操作动作。

主要结果:

通过在仿真和真实世界环境中的广泛实验，SaPaVe在真实世界任务中的成功率超过了GR00T N1和π_0等近期VLA模型，最高可达31.25%。

这证明了主动视角控制相比固定视角能够显著提升性能。特别是在有遮挡的环境或需要精细操作的任务（如组装、精密抓取等）中，主动视角调整的效果尤为显著。

意义与局限:

这项研究解决了机器人操作中“看”与“动”的根本性集成问题。通过在机器人上实现人类日常进行的“调整姿势以看得更好”的行为，可以大幅提高在复杂现实世界任务中的成功率。然而，相机控制与操作动作的同步优化计算成本很高，并且在需要实时性的应用中，延迟可能会成为一个问题。此外，训练数据的质量和数量对性能影响很大，多样化环境下的数据收集是未来的挑战。

来源: SaPaVe on arXiv（具体的arXiv编号未在搜索结果中明确，但被列为CVPR 2026接收论文）

论文4: ScienceClaw + Infinite: 自主科学研究框架

作者/所属: LAMM（MIT Laboratory for Atomistic and Molecular Mechanics）
概要:

ScienceClaw + Infinite是一个自主科学研究的框架，允许独立代理在没有中央协调的情况下进行研究，并且任何贡献者都可以将新的代理部署到共享生态系统中。

与传统的AI研究辅助工具不同，该系统旨在在无人干预的情况下完成整个研究过程（假设生成、实验设计、执行、数据分析、论文撰写）。

提出方法:

自适应的突变层积极地修剪不断增长的Artifact DAG（有向无环图），以解决竞争或冗余的工作流；通过持久化内存，代理可以跨越多个周期连续构建复杂的认知状态。Infinite将这些输出转化为可审计的科学记录，通过结构化投稿、历史视图和机器可读的语篇关系，社区反馈将指导后续的调查周期。

每个代理都拥有特定的科学能力（如分子动力学模拟、机器学习模型训练、文献调查等），并相互协作进行研究。

主要结果:

在四个自主调查中（生长抑素受体SSTR2的肽设计、轻质抗冲击陶瓷筛选、跨领域共振连接生物学、材料和音乐、以及城市形态学与晶界演化的形式类比构建），该框架展示了异构工具链、独立运行代理之间的涌现收敛，以及从原始计算到已发表发现的可追溯推理。

这些都是系统根据人类设定的初始条件自主展开研究并产生新的科学发现的案例。

意义与局限:

这项研究是实现“AI科学家”的一次雄心勃勃的尝试。如果研究过程能够自动化，人类科学家可以将精力集中在创造性的假设制定和战略性的研究方向决策上，从而摆脱日常繁琐工作。此外，全天候运行的AI代理可以大大加速研究进程。

然而，目前在①真正创新的想法生成、②实验结果的深度解释、③伦理判断、④理解研究的社会背景等方面，仍高度依赖人类，完全自主仍面临诸多挑战。此外，还存在误入研究歧途或得出未经验证的错误结论的风险。

来源: ScienceClaw + Infinite on Hugging Face（MIT的LAMM实验室发布于2026年3月15日）

论文间横向考察

本次介绍的四篇论文，共同的主题是“AI的自主性提升”。论文1涉及“研究什么”的判断能力，论文2涉及“物理上可执行的动作”的生成能力，论文3涉及“根据环境进行主动行为选择”的能力，论文4涉及“研究过程的整体自主执行”能力，它们从不同侧面提升了AI系统的自主性。

特别值得关注的趋势是利用社区反馈和偏好优化（preference optimization）进行学习方法的兴起。论文1的RLCF将引用数据作为“偏好”，论文2的PhysMoDPO将物理约束作为“偏好”，然后通过强化学习或DPO进行学习。这是一种将难以通过传统监督学习捕捉的“质量”或“偏好度”等概念教授给AI的新方法，未来有望进一步发展。

此外，多模态集成也是一个重要趋势。论文3的SaPaVe集成了视觉、语言和动作；论文4的ScienceClaw + Infinite集成了文献、数据、模拟和实验。要解决现实世界的复杂问题，单一模态是不足够的，整合多种信息源进行判断和行动的能力变得必不可少。

再者，**“科学方法论的AI化”**这一宏大潮流也可见端倪。论文1处理科学判断力，论文4处理整个科学研究过程的自动化，这些都是AI尝试学习科学本身这一行为的尝试。如果成功，不仅能加速科学研究，还可能带来新的科学方法论的发现。

参考文献

标题	信息源	URL
AI Can Learn Scientific Taste	arXiv	https://arxiv.org/abs/2603.14473
PhysMoDPO: Physically-Plausible Humanoid Motion with Preference Optimization	alphaXiv	https://www.alphaxiv.org/
SaPaVe: Towards Active Perception and Manipulation in Vision-Language-Action Models for Robotics	arXiv Robotics	https://arxiv.org/list/cs.RO/recent
ScienceClaw + Infinite: Framework for Autonomous Scientific Investigation	Hugging Face Trending	https://huggingface.co/papers/trending
OpenMOSS Project Repository	GitHub	https://github.com/tongjingqi/AI-Can-Learn-Scientific-Taste
Google DeepMind Research Page	Google DeepMind	https://deepmind.google/research/
arXiv AI Recent Papers	arXiv	https://arxiv.org/list/cs.AI/recent

本文由 LLM 自动生成，内容可能存在错误。