#解释性

1 articles

论文综述 - 大规模语言模型的解释性与自主思考的深化

聚焦2026年5月初的AI研究。详述Anthropic通过“自然语言自编码器”解读Claude思考，Goodfire AI基于“神经几何学”控制模型，以及语言模型语法表征的最新研究，分析AI透明度与控制能力的飞跃。