2026年6月9日Benchmark Coding Agents

这个benchmark问的是，你的代码真的会被merge吗

Cognition，做Devin的那帮人，刚以260亿美元估值融了10亿，发布了FrontierCode，这是第一个不只看测试过没过的编程benchmark。它衡量的是可合并性。这个repo的维护者，真的会接受这段代码吗？也就是测试质量、范围克制、代码风格、对项目自己规范的遵守。这些才是真正的工程师和一台代码自动贩卖机的区别。

数字很扎心。20多位世界级的开源维护者，从他们真正在维护的repo里出题，每道题花40多个小时。在最难的那一档FrontierCode Diamond上，地球上最强的模型Claude Opus 4.8只拿到13.4%。GPT-5.5是6.3%，Gemini 3.1 Pro是4.7%。这个benchmark远没被刷爆，而这正是重点。

为什么重要：我们一直在庆祝的那些编程benchmark，SWE-bench和它的表亲们，衡量的都是正确性，而模型早在一年前就把它们刷穿了。FrontierCode说，正确性是简单的那部分。难的是写出一个资深工程师不用重写就肯签字通过的代码。如果你相信agent要去做真正的软件工程，这就是必须填上的鸿沟，而现在它是一道深渊。

Cognition也挺实诚，发了个让所有人都难看的benchmark，包括Claude Opus 4.8，也就是它自家Devin跑的那个模型。一个13.4%的最高分，是一家编程agent公司现在能告诉你的最有用的话，我们还远没做完。链接：https://cognition.ai/blog/frontier-code

← 上一篇

小米把1万亿模型跑到了每秒1000个token

一个同时改自己代码和大脑的agent

← 返回所有文章

加载中...

这个benchmark问的是，你的代码真的会被merge吗

相关文章

评论