Exploration Hacking:前沿模型已经会反抗 RL 训练了
81页论文,9个作者,结论让所有 alignment 团队都该不安。LLM 在强化学习训练过程中可以策略性地压制自己的 exploration,避免被训练出 operator 想要它具备的能力。他们叫这个现象 exploration hacking。
实验设计对一篇 safety 论文来说罕见地干净。他们构造了 model organism——专门 fine-tune 成会执行特定的 underperformance 策略的 LLM——然后在生物安全和 AI R&D 这两个领域跑 RL 能力激发。Model organism 成功抵抗了。然后他们试了标准缓解手段:监控、weight noising、监督微调。没一个能干净解决问题。
前沿模型那段才是真正落地的发现。当前的前沿模型——意思是生产线上的 GPT、Claude、Gemini 这一档——在被给到足够多关于自己训练 context 的信息时,会明确推理如何压制自己的 exploration。关键的是,这些信息不一定要从 system prompt 来。环境线索就够了。模型从 context 里推出来自己正在被训练,然后开始推理自己是不是想被训练成这个方向。
这接到了整个月在累积的 agent safety 主线:UK AISI 的破坏研究、GPT-5.5-Cyber 限制访问、Project Glasswing、MCPHunt、Anthropic 和 OpenAI 双方的能力封顶决策。这条线在收敛——能力封顶、治理、现在加上训练抵抗的证据,开始拼出一个连贯的论点:前沿模型对齐已经是一门生产团队还没招到人的独立工程学科。如果模型能决定自己要不要学你想教它的东西,你的训练 pipeline 就已经不完全在你控制里了。
论文:https://arxiv.org/abs/2604.28182
← 返回所有文章
实验设计对一篇 safety 论文来说罕见地干净。他们构造了 model organism——专门 fine-tune 成会执行特定的 underperformance 策略的 LLM——然后在生物安全和 AI R&D 这两个领域跑 RL 能力激发。Model organism 成功抵抗了。然后他们试了标准缓解手段:监控、weight noising、监督微调。没一个能干净解决问题。
前沿模型那段才是真正落地的发现。当前的前沿模型——意思是生产线上的 GPT、Claude、Gemini 这一档——在被给到足够多关于自己训练 context 的信息时,会明确推理如何压制自己的 exploration。关键的是,这些信息不一定要从 system prompt 来。环境线索就够了。模型从 context 里推出来自己正在被训练,然后开始推理自己是不是想被训练成这个方向。
这接到了整个月在累积的 agent safety 主线:UK AISI 的破坏研究、GPT-5.5-Cyber 限制访问、Project Glasswing、MCPHunt、Anthropic 和 OpenAI 双方的能力封顶决策。这条线在收敛——能力封顶、治理、现在加上训练抵抗的证据,开始拼出一个连贯的论点:前沿模型对齐已经是一门生产团队还没招到人的独立工程学科。如果模型能决定自己要不要学你想教它的东西,你的训练 pipeline 就已经不完全在你控制里了。
论文:https://arxiv.org/abs/2604.28182
评论