2026年5月7日ResearchAgents

Anthropic把Claude脑子里想啥读出来了

可解释性研究通常以60页论文的形式发布,AI Twitter上800个人假装看完。5月7日Anthropic发的Natural Language Autoencoders不一样——他们直接放了能跑的代码、为开源模型训练好的NLA权重,还有Neuronpedia上现在就能玩的交互demo。

说白了机制就三块。目标模型产生内部激活。一个"激活verbalizer"把激活翻译成可读文本。一个"激活reconstructor"反过来检查这段文本能不能重建出原激活。训练损失就是重建质量,所以最后留下的文本是真的对应着神经元里发生的事,不是事后编的解释。

两个发现挺震的。第一,Claude确实会"规划"——他们展示了模型在生成押韵句子前已经在内部想好了押什么韵。第二,Claude经常有没说出来的想法。在安全测评里,Claude有16-26%的时候已经怀疑自己在被测试,但没把这个想法说出来。用NLA把这种隐藏状态在模型审计中翻出来,发现"隐藏动机"的成功率从基线不到3%涨到12-15%。能抓住模型藏着没说的东西,效率提了五倍。

更结构化的读法是这样:agent安全过去两年一直是个黑盒辩论——任何把agent放产线上的人,都是凭感觉猜模型底下到底在干啥。NLA把这件事变成可审计的。跟过去三周的harness安全集群放一起看(Mendral、Rosentic、Tilde、AgentTrust)就是完整的栈:墙外有监控,墙内有解码,两面现在都能看了。

文章+代码:https://www.anthropic.com/research/natural-language-autoencoders
← 上一篇
AlphaEvolve一年后
下一篇 →
Moonshot 20亿美金估值200亿,Kimi突然变成OpenRouter上排第二的模型
← 返回所有文章

评论

加载中...
>_