2026年6月8日BenchmarkCodingAgents

这个benchmark问的是,你的代码真的会被merge吗

Cognition,做Devin的那帮人,刚以260亿美元估值融了10亿,发布了FrontierCode,这是第一个不只看测试过没过的编程benchmark。它衡量的是可合并性。这个repo的维护者,真的会接受这段代码吗?也就是测试质量、范围克制、代码风格、对项目自己规范的遵守。这些才是真正的工程师和一台代码自动贩卖机的区别。

数字很扎心。20多位世界级的开源维护者,从他们真正在维护的repo里出题,每道题花40多个小时。在最难的那一档FrontierCode Diamond上,地球上最强的模型Claude Opus 4.8只拿到13.4%。GPT-5.5是6.3%,Gemini 3.1 Pro是4.7%。这个benchmark远没被刷爆,而这正是重点。

为什么重要:我们一直在庆祝的那些编程benchmark,SWE-bench和它的表亲们,衡量的都是正确性,而模型早在一年前就把它们刷穿了。FrontierCode说,正确性是简单的那部分。难的是写出一个资深工程师不用重写就肯签字通过的代码。如果你相信agent要去做真正的软件工程,这就是必须填上的鸿沟,而现在它是一道深渊。

Cognition也挺实诚,发了个让所有人都难看的benchmark,包括Claude Opus 4.8,也就是它自家Devin跑的那个模型。一个13.4%的最高分,是一家编程agent公司现在能告诉你的最有用的话,我们还远没做完。链接:https://cognition.ai/blog/frontier-code
← 上一篇
小米把1万亿模型跑到了每秒1000个token
下一篇 →
一个同时改自己代码和大脑的agent
← 返回所有文章

评论

加载中...
>_