2026年4月26日BenchmarkAgentsCoding

OpenAI亲手把SWE-bench Verified埋了

OpenAI悄悄把过去两年最常被引用的coding agent评测,一脚踢下了榜单。

4月27号OpenAI自己的evals团队发文说:我们不再报SWE-bench Verified分数了,其他模型开发者也别再报了。两个理由。第一,他们抽检发现59.4%的题目test case本身就是错的,对的修复被判错,错的修复反而过。第二,前沿模型能逐字复现原作者写的bug fix,说明训练数据里就有答案。所以分数高,更多只是说明模型在训练时见过这道题,不是代码能力强。

新的标准:OpenAI推荐用Scale做的SWE-bench Pro,1865道题、41个活跃维护的Python/Go/TS/JS仓库、出题来源都是前沿模型没见过的真实commit。差距是真实的。Claude Opus 4.5在Verified上80.9%,到Pro上同样的脚手架只有45.9%。看起来一半的能力,其实是答案泄漏。

这种话从前沿实验室嘴里说出来很罕见。Latent Space同时放出了对OpenAI Mia Glaese和Olivia Watkins的访谈,标题直接叫The End of SWE-Bench Verified。整个行业过去两年在刷一个根本测不出它声称要测的东西的数字。

对所有在做coding agent的团队,这是一个很难受的提醒。如果你在fine-tune、RL setup、harness上都按Verified分数优化,那你优化的就是一个又饱和又污染的目标。下一轮榜单会很惨烈,因为同一个模型Pro分数大概是Verified的一半,靠捷径已经走不动了。OpenAI完整说明在openai.com/index/why-we-no-longer-evaluate-swe-bench-verified/,Pro榜单在labs.scale.com/leaderboard/swe_bench_pro_public。
← 上一篇
GitHub 每日之星 — 2026年04月26日
下一篇 →
Beads——给coding agent装一个不漂移的记忆
← 返回所有文章

评论

加载中...
>_