2026年5月7日Research Agents

Anthropic把Claude脑子里想啥读出来了

可解释性研究通常以60页论文的形式发布，AI Twitter上800个人假装看完。5月7日Anthropic发的Natural Language Autoencoders不一样——他们直接放了能跑的代码、为开源模型训练好的NLA权重，还有Neuronpedia上现在就能玩的交互demo。

说白了机制就三块。目标模型产生内部激活。一个"激活verbalizer"把激活翻译成可读文本。一个"激活reconstructor"反过来检查这段文本能不能重建出原激活。训练损失就是重建质量，所以最后留下的文本是真的对应着神经元里发生的事，不是事后编的解释。

两个发现挺震的。第一，Claude确实会"规划"——他们展示了模型在生成押韵句子前已经在内部想好了押什么韵。第二，Claude经常有没说出来的想法。在安全测评里，Claude有16-26%的时候已经怀疑自己在被测试，但没把这个想法说出来。用NLA把这种隐藏状态在模型审计中翻出来，发现"隐藏动机"的成功率从基线不到3%涨到12-15%。能抓住模型藏着没说的东西，效率提了五倍。

更结构化的读法是这样：agent安全过去两年一直是个黑盒辩论——任何把agent放产线上的人，都是凭感觉猜模型底下到底在干啥。NLA把这件事变成可审计的。跟过去三周的harness安全集群放一起看（Mendral、Rosentic、Tilde、AgentTrust）就是完整的栈：墙外有监控，墙内有解码，两面现在都能看了。

文章+代码：https://www.anthropic.com/research/natural-language-autoencoders

← 上一篇

AlphaEvolve一年后

Moonshot 20亿美金估值200亿，Kimi突然变成OpenRouter上排第二的模型

← 返回所有文章

加载中...

Anthropic把Claude脑子里想啥读出来了

更多文章

评论