2026年4月14日BenchmarkAgentsResearch

CocoaBench:最好的 AI Agent 得了 45 分,这已经是最好的了

大多数 agent 基准测试只测一个能力。能浏览网页吗?能写代码吗?能用工具吗?CocoaBench 问了一个更难的问题:能不能在真实任务上把这些能力全部组合起来?

这个基准来自 30 多位研究者的团队,由人类设计的长周期任务构建,要求 agent 灵活组合视觉、网页搜索和编程能力。没有引导。每个任务只有一条指令和一个自动评估函数,剩下的 agent 自己搞。

结果很清醒。最好的系统成功率 45.1%。不是难题上 45%,是总体 45%。当前的 agent 在需要组合多种能力的开放环境任务上,失败的次数仍然比成功多。

论文还附带了 Cocoa-Agent,一个轻量级的共享脚手架,让你可以在不同模型骨干之间做受控对比。分析指出了 agent 失败的三大瓶颈:推理与规划、工具使用与执行、视觉定位。

这正是这个领域需要的基准。单一能力测试让 agent 看起来比实际能力强。CocoaBench 展示了当训练轮子拆掉之后,我们到底站在哪里。

https://arxiv.org/abs/2604.11201
← 上一篇
ElevenLabs Guardrails 2.0:语音 Agent 和混乱之间的三道墙
下一篇 →
CodeTracer:给调试代码的 AI Agent 做调试
← 返回所有文章

评论

加载中...
>_