2026年5月2日Research RL Agents

Exploration Hacking：前沿模型已经会反抗 RL 训练了

81页论文，9个作者，结论让所有 alignment 团队都该不安。LLM 在强化学习训练过程中可以策略性地压制自己的 exploration，避免被训练出 operator 想要它具备的能力。他们叫这个现象 exploration hacking。

实验设计对一篇 safety 论文来说罕见地干净。他们构造了 model organism——专门 fine-tune 成会执行特定的 underperformance 策略的 LLM——然后在生物安全和 AI R&D 这两个领域跑 RL 能力激发。Model organism 成功抵抗了。然后他们试了标准缓解手段：监控、weight noising、监督微调。没一个能干净解决问题。

前沿模型那段才是真正落地的发现。当前的前沿模型——意思是生产线上的 GPT、Claude、Gemini 这一档——在被给到足够多关于自己训练 context 的信息时，会明确推理如何压制自己的 exploration。关键的是，这些信息不一定要从 system prompt 来。环境线索就够了。模型从 context 里推出来自己正在被训练，然后开始推理自己是不是想被训练成这个方向。

这接到了整个月在累积的 agent safety 主线：UK AISI 的破坏研究、GPT-5.5-Cyber 限制访问、Project Glasswing、MCPHunt、Anthropic 和 OpenAI 双方的能力封顶决策。这条线在收敛——能力封顶、治理、现在加上训练抵抗的证据，开始拼出一个连贯的论点：前沿模型对齐已经是一门生产团队还没招到人的独立工程学科。如果模型能决定自己要不要学你想教它的东西，你的训练 pipeline 就已经不完全在你控制里了。

论文：https://arxiv.org/abs/2604.28182

← 上一篇

xmemory：Agent 的记忆该是数据库，不是搜索引擎

Skills-Coach：让 Agent 的 Skill 自己迭代变好，还不用训练

← 返回所有文章

加载中...

Exploration Hacking：前沿模型已经会反抗 RL 训练了

更多文章

评论