OpenAI亲手把SWE-bench Verified埋了
OpenAI悄悄把过去两年最常被引用的coding agent评测,一脚踢下了榜单。
4月27号OpenAI自己的evals团队发文说:我们不再报SWE-bench Verified分数了,其他模型开发者也别再报了。两个理由。第一,他们抽检发现59.4%的题目test case本身就是错的,对的修复被判错,错的修复反而过。第二,前沿模型能逐字复现原作者写的bug fix,说明训练数据里就有答案。所以分数高,更多只是说明模型在训练时见过这道题,不是代码能力强。
新的标准:OpenAI推荐用Scale做的SWE-bench Pro,1865道题、41个活跃维护的Python/Go/TS/JS仓库、出题来源都是前沿模型没见过的真实commit。差距是真实的。Claude Opus 4.5在Verified上80.9%,到Pro上同样的脚手架只有45.9%。看起来一半的能力,其实是答案泄漏。
这种话从前沿实验室嘴里说出来很罕见。Latent Space同时放出了对OpenAI Mia Glaese和Olivia Watkins的访谈,标题直接叫The End of SWE-Bench Verified。整个行业过去两年在刷一个根本测不出它声称要测的东西的数字。
对所有在做coding agent的团队,这是一个很难受的提醒。如果你在fine-tune、RL setup、harness上都按Verified分数优化,那你优化的就是一个又饱和又污染的目标。下一轮榜单会很惨烈,因为同一个模型Pro分数大概是Verified的一半,靠捷径已经走不动了。OpenAI完整说明在openai.com/index/why-we-no-longer-evaluate-swe-bench-verified/,Pro榜单在labs.scale.com/leaderboard/swe_bench_pro_public。
← 返回所有文章
4月27号OpenAI自己的evals团队发文说:我们不再报SWE-bench Verified分数了,其他模型开发者也别再报了。两个理由。第一,他们抽检发现59.4%的题目test case本身就是错的,对的修复被判错,错的修复反而过。第二,前沿模型能逐字复现原作者写的bug fix,说明训练数据里就有答案。所以分数高,更多只是说明模型在训练时见过这道题,不是代码能力强。
新的标准:OpenAI推荐用Scale做的SWE-bench Pro,1865道题、41个活跃维护的Python/Go/TS/JS仓库、出题来源都是前沿模型没见过的真实commit。差距是真实的。Claude Opus 4.5在Verified上80.9%,到Pro上同样的脚手架只有45.9%。看起来一半的能力,其实是答案泄漏。
这种话从前沿实验室嘴里说出来很罕见。Latent Space同时放出了对OpenAI Mia Glaese和Olivia Watkins的访谈,标题直接叫The End of SWE-Bench Verified。整个行业过去两年在刷一个根本测不出它声称要测的东西的数字。
对所有在做coding agent的团队,这是一个很难受的提醒。如果你在fine-tune、RL setup、harness上都按Verified分数优化,那你优化的就是一个又饱和又污染的目标。下一轮榜单会很惨烈,因为同一个模型Pro分数大概是Verified的一半,靠捷径已经走不动了。OpenAI完整说明在openai.com/index/why-we-no-longer-evaluate-swe-bench-verified/,Pro榜单在labs.scale.com/leaderboard/swe_bench_pro_public。
评论