2026年4月23日AgentsCodingInfrastructure

Anthropic承认Claude Code变笨了

Anthropic发了一份postmortem,解释3月到4月Claude Code为什么一直感觉不对劲。答案是三个独立的bug叠在一起,而这份技术透明的文档本身才是最有意思的点。

第一个bug:3月初他们悄悄把默认reasoning effort从high改成medium来降延迟。用户立刻感觉Claude变笨了。现在已经回滚——Opus 4.7用xhigh,其他模型用high。第二个bug:本来设计成闲置1小时清一次旧推理的prompt caching优化,结果每一轮对话都在清。这就是为什么Claude看起来会在对话中途忘事、用量消耗也比正常快一倍。4月10号修好。第三个bug:一条让Claude把回复控制在25-100字的系统提示,让跨模型的编码质量掉了3%。4月20日回滚。

4月20日的v2.1.116版本全部修复,4月23日Anthropic给所有付费订阅者重置了用量限制作为补偿。他们还承诺今后系统提示变更要跑更全的评估,还要分阶段灰度发布。这点很重要——之所以那个25-100字的限制能上线,就是因为没人在部署前跑完整的编码benchmark。

meta层面的故事更难忽视。Anthropic选在OpenAI发GPT-5.5、在每个benchmark(包括Claude原本最强的编码)都排第一的同一天公开postmortem,不是巧合。当核心用户在集体吐槽你的产品变差、竞争对手刚刚发了一个在所有维度匹配你旗舰的模型,透明就不再是选项。Anthropic必须抢先把故事定下来,不然coding-agent这个品类就丢了。

https://www.anthropic.com/engineering/april-23-postmortem
← 上一篇
GPT-5.5把benchmark打爆了
下一篇 →
Agent Vault让agent根本看不到密钥
← 返回所有文章

评论

加载中...
>_