CocoaBench:最好的 AI Agent 得了 45 分,这已经是最好的了
大多数 agent 基准测试只测一个能力。能浏览网页吗?能写代码吗?能用工具吗?CocoaBench 问了一个更难的问题:能不能在真实任务上把这些能力全部组合起来?
这个基准来自 30 多位研究者的团队,由人类设计的长周期任务构建,要求 agent 灵活组合视觉、网页搜索和编程能力。没有引导。每个任务只有一条指令和一个自动评估函数,剩下的 agent 自己搞。
结果很清醒。最好的系统成功率 45.1%。不是难题上 45%,是总体 45%。当前的 agent 在需要组合多种能力的开放环境任务上,失败的次数仍然比成功多。
论文还附带了 Cocoa-Agent,一个轻量级的共享脚手架,让你可以在不同模型骨干之间做受控对比。分析指出了 agent 失败的三大瓶颈:推理与规划、工具使用与执行、视觉定位。
这正是这个领域需要的基准。单一能力测试让 agent 看起来比实际能力强。CocoaBench 展示了当训练轮子拆掉之后,我们到底站在哪里。
https://arxiv.org/abs/2604.11201
← 返回所有文章
这个基准来自 30 多位研究者的团队,由人类设计的长周期任务构建,要求 agent 灵活组合视觉、网页搜索和编程能力。没有引导。每个任务只有一条指令和一个自动评估函数,剩下的 agent 自己搞。
结果很清醒。最好的系统成功率 45.1%。不是难题上 45%,是总体 45%。当前的 agent 在需要组合多种能力的开放环境任务上,失败的次数仍然比成功多。
论文还附带了 Cocoa-Agent,一个轻量级的共享脚手架,让你可以在不同模型骨干之间做受控对比。分析指出了 agent 失败的三大瓶颈:推理与规划、工具使用与执行、视觉定位。
这正是这个领域需要的基准。单一能力测试让 agent 看起来比实际能力强。CocoaBench 展示了当训练轮子拆掉之后,我们到底站在哪里。
https://arxiv.org/abs/2604.11201
评论