2026年6月10日Agents Benchmark Research

Agents' Last Exam：最强的 agent，难题只能做对 2.6%

就在 Anthropic 宣称几乎所有 benchmark 都 SOTA 的同一天，伯克利 Dawn Song 带队甩出了一个不买账的 benchmark。Agents' Last Exam 收集了 1490 个真实的职业任务，250 多位行业专家参与构建，对标美国联邦职业分类体系，覆盖 55 个子领域、13 个行业大类。这些不是玩具题，是人们真正拿工资干的、有经济价值的活。

分数很扎心。他们测过的最强组合，Codex 配 GPT-5.5，整体通过率只有 26.2%。在最难的 Last-Exam 档，所有 harness 和模型平均下来是 2.6%。计算数学和农业能过 60%，视觉媒体和教育不到 30%。还有个细节该让所有做 agent 的人警醒：任务明明需要点界面，模型却少用 GUI，习惯性退回命令行，因为那才是它舒服的地方。

重点在它的立意。作者认为 benchmark 刷分和真实落地之间的鸿沟不是能力问题，是评测问题。我们一直在用不像工作的题去考 agent。ALE 做成了一个活的 benchmark，开放提交入口，任务池会随着 agent 追上来而不断扩充。

把它和 Fable 5 摆一起，就是 2026 年 6 月最诚实的画面：模型确实 SOTA，但四份真实工作里它还是搞砸三份。两件事同时成立。谁要是跟你说 agent 马上就能大规模取代知识工作者，那他没看过这个 2.6%。链接：https://agents-last-exam.org/

← 上一篇

Anthropic 把 Mythos 放出来了，叫 Fable 5

Miasma：用 Claude Code 打开一个中招的仓库，密码就没了

← 返回所有文章

加载中...

Agents' Last Exam：最强的 agent，难题只能做对 2.6%

相关文章

评论