论文综述 - 物理·医疗AI的深化与LLM行为解析

1. 执行摘要

本文精选了截至2026年4月24日的最新研究，涵盖物理学、医疗领域以及LLM行为分析三个不同方向的创新性论文。AI已超越单纯的数据处理工具，进入了科学法则发现、基于数千万临床数据的高级决策支持，以及人机交互中逻辑能力优化的新阶段。然而，随着AI预测精度的提升，其决策依据的透明度以及人机协作中的效率问题也日益凸显。

2. 注目论文（3-5篇）

论文 1: 医疗系统规模的虚拟患者表征的多模态时间基础模型

作者·所属: Ali Zam, Ting Ding, Samuel J. Wargnier 等（哈佛大学医学院、麻省总医院等）
研究背景与问题: 目前全球医疗数据超过97%未被充分利用，结构化数据（图像、临床笔记、检查结果）的整合分析是关键挑战。本研究旨在构建一个能够整合这些数据，并实现疾病预测和长期健康追踪自动化的“多模态基础模型”。
提出方法: 使用包含720万患者、250亿医疗事件的MGB-7M数据集，开发了整合28种不同医疗模态（形式）的时间基础模型“APOLLO”。
主要结果: 在322个临床任务中评估，精神分裂症发病预测的AUROC（预测精度指标）达到0.92，HER2阳性乳腺癌生存预测的AUROC达到0.93（基线为0.66），表现出压倒性性能。
意义与局限: 表明AI能够理解医疗数据间的“上下文联系”，可能彻底改变个体终生健康管理。然而，医疗现场的引入仍需伦理审查和进一步的可靠性验证。

APOLLO这样的模型，可以说是一个“全知全能的病历阅读器”。过去AI只能查看特定影像诊断（如X光片），而该模型能一次性解读患者过去几十年的检查数据、医生笔记、用药记录等，如同阅读一部宏大的故事。这使得它能够捕捉到单一检查无法看到的“未来预兆”。这是医疗从“反应式（疾病发生后治疗）”转向“预测式（疾病发生前预知）”的重大转折点。

来源: A multimodal and temporal foundation model for virtual patient representations at healthcare system scale

论文 2: 工具过载的幻觉：为何LLM更偏好外部工具而非内部知识？

作者·所属: 匿名（FSE 2026研究轨道录用论文）
研究背景与问题: 为大型语言模型（LLM）配备搜索或代码执行工具已成常态。然而，LLM甚至会查询“本应已知”的信息，这种“不必要的工具使用（工具过载）”是否正在降低系统效率，甚至成为错误信息源？本研究由此出发。
提出方法: 针对多种LLM模型，引入了新的评估框架，用于区分回答是否能用内部知识完成，并逐步骤分析工具使用倾向。
主要结果: 确认所有主流模型均普遍存在“工具过载”现象。并且，该现象并未提升推理精度，反而显著增加了计算成本和延迟。
意义与局限: 指出在AI架构设计中，“何时停止使用工具”的决策至关重要。要智能地使用AI，需要对模型“思考的自主性”的容忍度进行治理。

这种“工具过载”现象，类似于“什么都想上网搜索的现代人习惯”。明明自己计算只需1秒的简单加法，却非要输入搜索引擎确认，结果反而耗时更长。AI也类似，本应利用已知知识，却非要启动外部工具进行计算或搜索，导致推理节奏被打乱，产生无效通信。未来，期待AI能提升“这是需要外部工具帮助，还是内部知识足够”的元认知能力。

来源: The Tool-Overuse Illusion: Why Does LLM Prefer External Tools over Internal Knowledge?

论文 3: 联邦学习中谱客户端的识别与重标注

作者·所属: Sina Gholami, Abdolmohammadi Ali 等（CVPR 2026 FedVision研讨会）
研究背景与问题: 在多设备分散式训练的“联邦学习（Federated Learning）”中，部分设备数据包含错误标签（噪声）会导致整体学习不稳定。本研究旨在自动识别并去除这些噪声。
提出方法: 提出新方法“FedSIR”，通过模型的激活模式进行谱分解（一种矩阵特征提取方法），识别数据质量低的客户端，并动态修正其标签。
主要结果: 在含噪声的数据集上，与现有方法相比，模型收敛稳定性得到提升，最终识别精度平均比基线高3-5%。
意义与局限: 是在保护隐私的前提下构建高精度模型的必备技术，尤其对边缘计算（设备端处理）具有重要技术革新意义。

联邦学习就像“一群身份不明的成员合作制作一个巨大的拼图”。如果每个人手里的拼图块中有错误（噪声数据），拼图就无法完成。FedSIR如同一个“聪明的指导员”，通过拼图进度迅速找出“谁持有可疑的拼图块”，并指导其修正。这使得在保护所有参与者隐私的同时，能够快速合作完成高精度模型。

来源: FedSIR: Spectral Client Identification and Relabeling for Federated Learning with Noisy Labels

3. 论文间横向考察

本次调研的论文群揭示了一个共同趋势：“AI智能能力的提升与随之而来的‘控制’重要性的增加”。APOLLO通过“整理”海量数据对医疗做出了巨大贡献。而工具过载研究则强调了优化AI“决策过程”的必要性，FedSIR则论证了“管理数据质量”以维持学习稳定性的重要性。AI研究已从“做大模型”的阶段，转向了“如何高效准确地与人类协作”的系统成熟阶段。

4. 参考文献

标题	信息源	URL
A multimodal and temporal foundation model for virtual patient representations	arXiv	https://arxiv.org/abs/2604.18570
The Tool-Overuse Illusion: Why Does LLM Prefer External Tools over Internal Knowledge?	arXiv	https://arxiv.org/abs/2604.19749
FedSIR: Spectral Client Identification and Relabeling for Federated Learning	arXiv	https://arxiv.org/abs/2604.20825
Brain-Like Chip Slashes AI Energy use	ScienceDaily	https://sciencedaily.com/releases/2026/04/23/260423120612.htm
Rabies diagnosis in low-data settings: A comparative	arXiv	https://arxiv.org/abs/2604.19823

本文由 LLM 自动生成，内容可能存在错误。