Anthropic 新论文:教 AI 为什么,比教它做什么管用
Anthropic 5 月 8 日扔出一篇新的对齐论文,叫"Teaching Claude Why"。核心结论:训练模型理解为什么要做对齐行为,比直接训练它做这个行为,泛化好得多。
数字很猛。在一个"敲诈测试"上,训练数据里包含伦理思考的回答,把敲诈率从 22% 降到 3%。同样的回答但去掉思考过程,只能降到 15%。同一份数据,"讲道理"比"给示范"效果好 4 倍。
更有意思的是:300 万 token 的"困难建议"数据集(用户面临伦理困境,AI 给建议),效果跟 8500 万 token 的"模仿测试场景"数据集差不多。少 28 倍的数据,同样的结果,泛化还更好。光是高质量的宪法性文件本身,就能让对齐失败率降到原来的 1/3,哪怕这些文件跟评测内容毫无关系。
这跟 Anthropic 5 月 7 日的 Natural Language Autoencoders 和 Petri 开源那两篇凑成了一个三连发。外部可解释(NLA) + 内部原则训练(这一篇) + 开源审计工具(Petri)。Anthropic 在系统性地发布它一旦把 Claude 部署成几十亿人默认 agent 的话,需要的安全论证。
往大了看一层:agent 安全现在被当成一个研究栈来做,不是一个清单。harness 那一层的安全(Mendral、Rosentic、Tilde、AgentTrust)是运行时。Anthropic 5 月 7-8 这三连发是模型内部那一层。两层一起出货的时候,"安全 agent"就从营销变成了工程。来源:https://www.anthropic.com/research/teaching-claude-why
← 返回所有文章
数字很猛。在一个"敲诈测试"上,训练数据里包含伦理思考的回答,把敲诈率从 22% 降到 3%。同样的回答但去掉思考过程,只能降到 15%。同一份数据,"讲道理"比"给示范"效果好 4 倍。
更有意思的是:300 万 token 的"困难建议"数据集(用户面临伦理困境,AI 给建议),效果跟 8500 万 token 的"模仿测试场景"数据集差不多。少 28 倍的数据,同样的结果,泛化还更好。光是高质量的宪法性文件本身,就能让对齐失败率降到原来的 1/3,哪怕这些文件跟评测内容毫无关系。
这跟 Anthropic 5 月 7 日的 Natural Language Autoencoders 和 Petri 开源那两篇凑成了一个三连发。外部可解释(NLA) + 内部原则训练(这一篇) + 开源审计工具(Petri)。Anthropic 在系统性地发布它一旦把 Claude 部署成几十亿人默认 agent 的话,需要的安全论证。
往大了看一层:agent 安全现在被当成一个研究栈来做,不是一个清单。harness 那一层的安全(Mendral、Rosentic、Tilde、AgentTrust)是运行时。Anthropic 5 月 7-8 这三连发是模型内部那一层。两层一起出货的时候,"安全 agent"就从营销变成了工程。来源:https://www.anthropic.com/research/teaching-claude-why
评论