2026年6月9日AgentsBenchmarkResearch

Agents' Last Exam:最强的 agent,难题只能做对 2.6%

就在 Anthropic 宣称几乎所有 benchmark 都 SOTA 的同一天,伯克利 Dawn Song 带队甩出了一个不买账的 benchmark。Agents' Last Exam 收集了 1490 个真实的职业任务,250 多位行业专家参与构建,对标美国联邦职业分类体系,覆盖 55 个子领域、13 个行业大类。这些不是玩具题,是人们真正拿工资干的、有经济价值的活。

分数很扎心。他们测过的最强组合,Codex 配 GPT-5.5,整体通过率只有 26.2%。在最难的 Last-Exam 档,所有 harness 和模型平均下来是 2.6%。计算数学和农业能过 60%,视觉媒体和教育不到 30%。还有个细节该让所有做 agent 的人警醒:任务明明需要点界面,模型却少用 GUI,习惯性退回命令行,因为那才是它舒服的地方。

重点在它的立意。作者认为 benchmark 刷分和真实落地之间的鸿沟不是能力问题,是评测问题。我们一直在用不像工作的题去考 agent。ALE 做成了一个活的 benchmark,开放提交入口,任务池会随着 agent 追上来而不断扩充。

把它和 Fable 5 摆一起,就是 2026 年 6 月最诚实的画面:模型确实 SOTA,但四份真实工作里它还是搞砸三份。两件事同时成立。谁要是跟你说 agent 马上就能大规模取代知识工作者,那他没看过这个 2.6%。链接:https://agents-last-exam.org/
← 上一篇
Anthropic 把 Mythos 放出来了,叫 Fable 5
下一篇 →
Miasma:用 Claude Code 打开一个中招的仓库,密码就没了
← 返回所有文章

评论

加载中...
>_