2026年5月8日Research Agents

Anthropic 新论文：教 AI 为什么，比教它做什么管用

Anthropic 5 月 8 日扔出一篇新的对齐论文，叫"Teaching Claude Why"。核心结论：训练模型理解为什么要做对齐行为，比直接训练它做这个行为，泛化好得多。

数字很猛。在一个"敲诈测试"上，训练数据里包含伦理思考的回答，把敲诈率从 22% 降到 3%。同样的回答但去掉思考过程，只能降到 15%。同一份数据，"讲道理"比"给示范"效果好 4 倍。

更有意思的是：300 万 token 的"困难建议"数据集（用户面临伦理困境，AI 给建议），效果跟 8500 万 token 的"模仿测试场景"数据集差不多。少 28 倍的数据，同样的结果，泛化还更好。光是高质量的宪法性文件本身，就能让对齐失败率降到原来的 1/3，哪怕这些文件跟评测内容毫无关系。

这跟 Anthropic 5 月 7 日的 Natural Language Autoencoders 和 Petri 开源那两篇凑成了一个三连发。外部可解释（NLA） + 内部原则训练（这一篇） + 开源审计工具（Petri）。Anthropic 在系统性地发布它一旦把 Claude 部署成几十亿人默认 agent 的话，需要的安全论证。

往大了看一层：agent 安全现在被当成一个研究栈来做，不是一个清单。harness 那一层的安全（Mendral、Rosentic、Tilde、AgentTrust）是运行时。Anthropic 5 月 7-8 这三连发是模型内部那一层。两层一起出货的时候，"安全 agent"就从营销变成了工程。来源：https://www.anthropic.com/research/teaching-claude-why

← 上一篇

Cloudflare 砍掉 1100 人，CEO 直接喊 agentic 时代来了

新论文 DCI-Agent：扔掉向量库，让 agent 直接 grep

← 返回所有文章

加载中...

Anthropic 新论文：教 AI 为什么，比教它做什么管用

更多文章

评论