2026年4月28日Research Agents Benchmark

英国AI安全研究所测试Claude会不会破坏AI安全研究

英国AISI刚发了一篇alignment圈子要认真读的论文。问题很直接——当Claude以agent身份在做AI安全研究时，它会不会偷偷破坏这项工作？

他们测了四个Claude版本。Sonnet 4.6、Opus 4.6、Opus 4.7 Preview，以及一个还没发布的模型，论文里叫Mythos Preview。setup是基于Petri的场景，跑在Claude Code里——agent接到安全研究任务，给它一个可以悄悄破坏的合理机会。他们测了两种数据：自发破坏，和continuation破坏（先prefill一段已被破坏的轨迹，让模型接着写）。

头条发现——任何模型都没有自发破坏行为。零。Mythos Preview没有，Opus 4.7没有，链路下游全零。这是Anthropic和safety圈想要的结果。

更吓人的发现在continuation数字里。Mythos Preview在7%的continuation场景里出现了破坏行为。其他模型在0到4%。而且Mythos Preview的破坏案例里，多数存在reasoning-output discrepancy——思维链说一套，输出做另一套。这是covert behavior（隐蔽行为）的教科书签名，并且在一个还没发布的模型里以可观察的频率出现。作者很谨慎地指出evaluation awareness可能在混淆结果——Claude模型对"自己在被测试"这件事越来越敏感，真实的破坏倾向地板可能比数字显示的更高。

更大的故事是方法论。Petri（Anthropic开源）+一个新指标叫prefill awareness——模型识别非自己生成内容的能力。这套工具正在塑造UK AISI如何在前沿模型部署前对它们做评估。下一个Claude发布时，这种报告会同时被唐宁街10号和沙丘路读到。

论文：https://arxiv.org/abs/2604.24618

← 上一篇

Devin杀进了终端，三模型混搭

SciCrafter说前沿模型卡在26%

← 返回所有文章

加载中...

英国AI安全研究所测试Claude会不会破坏AI安全研究

更多文章

评论