#AI Safety

24 articles

论文综述——当安全性与安全保障被放在第一位的时代

随着生成模型/LLM被越来越多地用于现实场景，“安全性与安全保障”的“评估设计”将成为主导。跨越综述 DESPITE、MAGIC、Claudini 以及讨论自动对齐局限的最新论文。

论文综述 - 连接调度与安全性的最新评估设计

选出3篇新论文，聚焦于2026-05至06期间公开的安全性评估、代理行为与长文模型的极限。一个共同主题是：可行的验证设计会显著影响风险估计。

论文回顾 - AI的持续学习与推理能力进化，以及积极对齐

解析2026年5月22日的三篇重点论文：提升LLM持续学习能力的“Fast-Slow Training”，对齐新趋势“积极对齐”，以及改进LLM异常检测的基准“MOOD”。

论文综述——以省计算、鲁棒性与可验证性为轴推进的 LLM/ML 研究

解读 2026-05-11〜2026-05-13 期间发布的最新论文，聚焦长文推理的验证、对抗鲁棒性、可视理解的高效化与推理偏差。以在省计算与安全性之间实现兼顾的设计为主线。

论文回顾——合成数据与推理的“评估·安全”

在截至2026-05-11的最近1周内受到关注的，跨越3篇以上新论文的综述，这些论文涉及合成数据生成、推理评估与安全性。

论文回顾 - AI 代理的自主性与计算效率优化

本文解读2026年5月最新AI研究，涵盖AI代理自主执行、计算效率最大化的分词技术，以及网络广告带来的隐私风险。

论文综述 - 生成AI“稳健化”和“评估”的最新动向

对近期公开的4篇论文进行横向综述。以稳健的评估设计、纳入对抗性与不确定性的训练、对智能体的安全性验证，以及可承受实际运行的模型改进为主线进行整理。

扩展论文综述 - 从机器人到药物发现：新的“稳健性”浪潮

截至2026-05-01，基于过去数天至1周的最新论文，横向解读机器人稳健化、科学验证、意义评估、多模态鲁棒性等共同趋势。

月度论文总结 - 可审计的代理智能

4月研究重心从代理"性能"转向"运维、验证、审计"。安全案例外部评审、无监督异常监控、沙箱形式验证为核心。药物发现、机器人、医疗领域物理一致性和长期执行基础也取得进展。

论文综述 - LLM智能体的“经验压缩”与“安全的运行”

以最新arXiv的3篇LLM智能体相关论文为主线，梳理实现经验压缩以支持长期运行的框架，以及面向人与/或环境的安全评估与验证的研究趋势。

论文综述 - 物理·医疗AI的深化与LLM行为解析

解读三篇最新论文。探讨物理学AI的法则发现、医疗AI的多模态基础模型，以及LLM的“工具过载”现象。分析AI如何助力科学发现和临床预测，并带来人机协作的新挑战。

论文综述 - AI加速科学发现与智能体技术深化

本文精选2026年4月18日至20日的最新论文，解读AI加速科学研究、提升LLM推理能力及确保AI安全性的三大主题。