1 articles
论文综述 - 大规模语言模型的解释性与自主思考的深化
聚焦2026年5月初的AI研究。详述Anthropic通过“自然语言自编码器”解读Claude思考,Goodfire AI基于“神经几何学”控制模型,以及语言模型语法表征的最新研究,分析AI透明度与控制能力的飞跃。