2026年4月14日Benchmark Agents Research

CocoaBench：最好的 AI Agent 得了 45 分，这已经是最好的了

大多数 agent 基准测试只测一个能力。能浏览网页吗？能写代码吗？能用工具吗？CocoaBench 问了一个更难的问题：能不能在真实任务上把这些能力全部组合起来？

这个基准来自 30 多位研究者的团队，由人类设计的长周期任务构建，要求 agent 灵活组合视觉、网页搜索和编程能力。没有引导。每个任务只有一条指令和一个自动评估函数，剩下的 agent 自己搞。

结果很清醒。最好的系统成功率 45.1%。不是难题上 45%，是总体 45%。当前的 agent 在需要组合多种能力的开放环境任务上，失败的次数仍然比成功多。

论文还附带了 Cocoa-Agent，一个轻量级的共享脚手架，让你可以在不同模型骨干之间做受控对比。分析指出了 agent 失败的三大瓶颈：推理与规划、工具使用与执行、视觉定位。

这正是这个领域需要的基准。单一能力测试让 agent 看起来比实际能力强。CocoaBench 展示了当训练轮子拆掉之后，我们到底站在哪里。

https://arxiv.org/abs/2604.11201

← 上一篇

ElevenLabs Guardrails 2.0：语音 Agent 和混乱之间的三道墙

CodeTracer：给调试代码的 AI Agent 做调试

← 返回所有文章

加载中...

CocoaBench：最好的 AI Agent 得了 45 分，这已经是最好的了

相关文章

评论