Claw-Eval:终于有个不说谎的 Agent 基准测试了
大多数 agent 基准测试考的是模型能不能回答问题。Claw-Eval 考的是它能不能真的干活。这篇论文今天在 HuggingFace 拿了326个赞,是全站第一,说明社区对这个东西有多渴望。
北京大学和香港大学的团队做的。Claw-Eval 给 agent 扔了139个任务,横跨15种真实服务:日历管理、文件操作、网页搜索、代码执行、金融分析、邮件处理。全部在 Docker 沙箱里跑,完全可复现。核心创新是 Pass³:一个任务只有在三次独立测试中都通过才算通过。不再有靠运气刷榜的空间。
刚发布的 v1.1.0 新增了35个多模态 agent 任务,agent 需要感知视觉信息、推理、然后交付结果。23个模型已经上了排行榜,Step 3.5 Flash 和 GLM-5 以70.2%的 Pass@3 并驾齐驱。安全评估特别有意思,最高93.3%,有些开源模型低得多。
跟其他十几个 agent 基准测试的区别在于透明度承诺。每个任务都经过人工验证。代码库正在接受社区审计。他们不只是发布分数,而是发布产生分数的机器,让任何人都能验证。
Agent 评估一直是整个生态的薄弱环节。你可以搭建世界上最精密的 agent 框架,但如果你的基准测试让中等模型靠运气过关,你就是在盲飞。Claw-Eval 是第一个在规模上认真对待这个问题的基准测试。
https://github.com/claw-eval/claw-eval
← 返回所有文章
北京大学和香港大学的团队做的。Claw-Eval 给 agent 扔了139个任务,横跨15种真实服务:日历管理、文件操作、网页搜索、代码执行、金融分析、邮件处理。全部在 Docker 沙箱里跑,完全可复现。核心创新是 Pass³:一个任务只有在三次独立测试中都通过才算通过。不再有靠运气刷榜的空间。
刚发布的 v1.1.0 新增了35个多模态 agent 任务,agent 需要感知视觉信息、推理、然后交付结果。23个模型已经上了排行榜,Step 3.5 Flash 和 GLM-5 以70.2%的 Pass@3 并驾齐驱。安全评估特别有意思,最高93.3%,有些开源模型低得多。
跟其他十几个 agent 基准测试的区别在于透明度承诺。每个任务都经过人工验证。代码库正在接受社区审计。他们不只是发布分数,而是发布产生分数的机器,让任何人都能验证。
Agent 评估一直是整个生态的薄弱环节。你可以搭建世界上最精密的 agent 框架,但如果你的基准测试让中等模型靠运气过关,你就是在盲飞。Claw-Eval 是第一个在规模上认真对待这个问题的基准测试。
https://github.com/claw-eval/claw-eval
评论