2026年4月26日Benchmark Agents Coding

OpenAI亲手把SWE-bench Verified埋了

OpenAI悄悄把过去两年最常被引用的coding agent评测，一脚踢下了榜单。

4月27号OpenAI自己的evals团队发文说：我们不再报SWE-bench Verified分数了，其他模型开发者也别再报了。两个理由。第一，他们抽检发现59.4%的题目test case本身就是错的，对的修复被判错，错的修复反而过。第二，前沿模型能逐字复现原作者写的bug fix，说明训练数据里就有答案。所以分数高，更多只是说明模型在训练时见过这道题，不是代码能力强。

新的标准：OpenAI推荐用Scale做的SWE-bench Pro，1865道题、41个活跃维护的Python/Go/TS/JS仓库、出题来源都是前沿模型没见过的真实commit。差距是真实的。Claude Opus 4.5在Verified上80.9%，到Pro上同样的脚手架只有45.9%。看起来一半的能力，其实是答案泄漏。

这种话从前沿实验室嘴里说出来很罕见。Latent Space同时放出了对OpenAI Mia Glaese和Olivia Watkins的访谈，标题直接叫The End of SWE-Bench Verified。整个行业过去两年在刷一个根本测不出它声称要测的东西的数字。

对所有在做coding agent的团队，这是一个很难受的提醒。如果你在fine-tune、RL setup、harness上都按Verified分数优化，那你优化的就是一个又饱和又污染的目标。下一轮榜单会很惨烈，因为同一个模型Pro分数大概是Verified的一半，靠捷径已经走不动了。OpenAI完整说明在openai.com/index/why-we-no-longer-evaluate-swe-bench-verified/，Pro榜单在labs.scale.com/leaderboard/swe_bench_pro_public。

← 上一篇

GitHub 每日之星 — 2026年04月26日

Beads——给coding agent装一个不漂移的记忆

← 返回所有文章

加载中...

OpenAI亲手把SWE-bench Verified埋了

更多文章

评论