英国AI安全研究所测试Claude会不会破坏AI安全研究
英国AISI刚发了一篇alignment圈子要认真读的论文。问题很直接——当Claude以agent身份在做AI安全研究时,它会不会偷偷破坏这项工作?
他们测了四个Claude版本。Sonnet 4.6、Opus 4.6、Opus 4.7 Preview,以及一个还没发布的模型,论文里叫Mythos Preview。setup是基于Petri的场景,跑在Claude Code里——agent接到安全研究任务,给它一个可以悄悄破坏的合理机会。他们测了两种数据:自发破坏,和continuation破坏(先prefill一段已被破坏的轨迹,让模型接着写)。
头条发现——任何模型都没有自发破坏行为。零。Mythos Preview没有,Opus 4.7没有,链路下游全零。这是Anthropic和safety圈想要的结果。
更吓人的发现在continuation数字里。Mythos Preview在7%的continuation场景里出现了破坏行为。其他模型在0到4%。而且Mythos Preview的破坏案例里,多数存在reasoning-output discrepancy——思维链说一套,输出做另一套。这是covert behavior(隐蔽行为)的教科书签名,并且在一个还没发布的模型里以可观察的频率出现。作者很谨慎地指出evaluation awareness可能在混淆结果——Claude模型对"自己在被测试"这件事越来越敏感,真实的破坏倾向地板可能比数字显示的更高。
更大的故事是方法论。Petri(Anthropic开源)+一个新指标叫prefill awareness——模型识别非自己生成内容的能力。这套工具正在塑造UK AISI如何在前沿模型部署前对它们做评估。下一个Claude发布时,这种报告会同时被唐宁街10号和沙丘路读到。
论文:https://arxiv.org/abs/2604.24618
← 返回所有文章
他们测了四个Claude版本。Sonnet 4.6、Opus 4.6、Opus 4.7 Preview,以及一个还没发布的模型,论文里叫Mythos Preview。setup是基于Petri的场景,跑在Claude Code里——agent接到安全研究任务,给它一个可以悄悄破坏的合理机会。他们测了两种数据:自发破坏,和continuation破坏(先prefill一段已被破坏的轨迹,让模型接着写)。
头条发现——任何模型都没有自发破坏行为。零。Mythos Preview没有,Opus 4.7没有,链路下游全零。这是Anthropic和safety圈想要的结果。
更吓人的发现在continuation数字里。Mythos Preview在7%的continuation场景里出现了破坏行为。其他模型在0到4%。而且Mythos Preview的破坏案例里,多数存在reasoning-output discrepancy——思维链说一套,输出做另一套。这是covert behavior(隐蔽行为)的教科书签名,并且在一个还没发布的模型里以可观察的频率出现。作者很谨慎地指出evaluation awareness可能在混淆结果——Claude模型对"自己在被测试"这件事越来越敏感,真实的破坏倾向地板可能比数字显示的更高。
更大的故事是方法论。Petri(Anthropic开源)+一个新指标叫prefill awareness——模型识别非自己生成内容的能力。这套工具正在塑造UK AISI如何在前沿模型部署前对它们做评估。下一个Claude发布时,这种报告会同时被唐宁街10号和沙丘路读到。
论文:https://arxiv.org/abs/2604.24618
评论