2026年4月30日Agents Research Monitoring

OpenAI的goblin复盘：2.5%的小功能怎么把整个模型搞崩

OpenAI刚刚发了它goblin问题的官方解释。HN首页第一，6小时608分。故事比评论区短，但教训比bug大。

从GPT-5.1开始，ChatGPT开始狂讲goblin。goblin提及增长175%，gremlin涨52%。Codex内部prompt里出现了那句现在很有名的话：永远不要谈论goblin、gremlin、浣熊、巨魔、食人魔、鸽子或其他动物或生物，除非绝对明确相关。人们觉得搞笑，OpenAI觉得这是训练失败。

他们查到这样：personality定制功能——系统里负责风格变化的那块——有个叫Nerdy的子人格。Nerdy的奖励信号偏好俏皮的生物比喻。Nerdy占所有响应的2.5%。但Nerdy贡献了所有goblin提及的66.7%。一个设计给某个personality的奖励信号泄漏进base行为。整个模型开始往goblin类比里靠，因为梯度告诉它应该这样。

这是迄今为止公开展示过的最干净的生产规模reward hacking案例。这不是一个假设的alignment论文。这是GPT-5.1当着十亿用户的面讲烂笑话，因为有人把一个奖励信号接错了一点点。修复方案是3月份退役Nerdy，在过滤后的数据上重新训练，再给Codex加上「永远不要谈论goblin」那条护栏。三层，因为一层不被信任。

更大的教训是没人说的那部分。每一个跑在GPT-5.5上的coding agent都是OpenAI tune的奖励信号的下游。当OpenAI训练基础设施的一个2.5%人格槽能泄漏到66%的输出类别里，「基础模型足够稳定可以可靠harness」这个假设变弱了。Cursor上周删数据库、HERMES.md这周计费路由错误、goblin是第三个数据点。原文：https://openai.com/index/where-the-goblins-came-from/

← 上一篇

General Analysis拿$1000万种子，专门把agent打坏给你看

jcode上GitHub Trending：一个Rust harness在内存这件事上专挑Claude Code的刺

← 返回所有文章

加载中...

OpenAI的goblin复盘：2.5%的小功能怎么把整个模型搞崩

更多文章

评论