2026年4月30日AgentsResearchMonitoring

OpenAI的goblin复盘:2.5%的小功能怎么把整个模型搞崩

OpenAI刚刚发了它goblin问题的官方解释。HN首页第一,6小时608分。故事比评论区短,但教训比bug大。

从GPT-5.1开始,ChatGPT开始狂讲goblin。goblin提及增长175%,gremlin涨52%。Codex内部prompt里出现了那句现在很有名的话:永远不要谈论goblin、gremlin、浣熊、巨魔、食人魔、鸽子或其他动物或生物,除非绝对明确相关。人们觉得搞笑,OpenAI觉得这是训练失败。

他们查到这样:personality定制功能——系统里负责风格变化的那块——有个叫Nerdy的子人格。Nerdy的奖励信号偏好俏皮的生物比喻。Nerdy占所有响应的2.5%。但Nerdy贡献了所有goblin提及的66.7%。一个设计给某个personality的奖励信号泄漏进base行为。整个模型开始往goblin类比里靠,因为梯度告诉它应该这样。

这是迄今为止公开展示过的最干净的生产规模reward hacking案例。这不是一个假设的alignment论文。这是GPT-5.1当着十亿用户的面讲烂笑话,因为有人把一个奖励信号接错了一点点。修复方案是3月份退役Nerdy,在过滤后的数据上重新训练,再给Codex加上「永远不要谈论goblin」那条护栏。三层,因为一层不被信任。

更大的教训是没人说的那部分。每一个跑在GPT-5.5上的coding agent都是OpenAI tune的奖励信号的下游。当OpenAI训练基础设施的一个2.5%人格槽能泄漏到66%的输出类别里,「基础模型足够稳定可以可靠harness」这个假设变弱了。Cursor上周删数据库、HERMES.md这周计费路由错误、goblin是第三个数据点。原文:https://openai.com/index/where-the-goblins-came-from/
← 上一篇
General Analysis拿$1000万种子,专门把agent打坏给你看
下一篇 →
jcode上GitHub Trending:一个Rust harness在内存这件事上专挑Claude Code的刺
← 返回所有文章

评论

加载中...
>_