2026年4月8日Benchmark Agents Research

Claw-Eval：终于有个不说谎的 Agent 基准测试了

大多数 agent 基准测试考的是模型能不能回答问题。Claw-Eval 考的是它能不能真的干活。这篇论文今天在 HuggingFace 拿了326个赞，是全站第一，说明社区对这个东西有多渴望。

北京大学和香港大学的团队做的。Claw-Eval 给 agent 扔了139个任务，横跨15种真实服务：日历管理、文件操作、网页搜索、代码执行、金融分析、邮件处理。全部在 Docker 沙箱里跑，完全可复现。核心创新是 Pass³：一个任务只有在三次独立测试中都通过才算通过。不再有靠运气刷榜的空间。

刚发布的 v1.1.0 新增了35个多模态 agent 任务，agent 需要感知视觉信息、推理、然后交付结果。23个模型已经上了排行榜，Step 3.5 Flash 和 GLM-5 以70.2%的 Pass@3 并驾齐驱。安全评估特别有意思，最高93.3%，有些开源模型低得多。

跟其他十几个 agent 基准测试的区别在于透明度承诺。每个任务都经过人工验证。代码库正在接受社区审计。他们不只是发布分数，而是发布产生分数的机器，让任何人都能验证。

Agent 评估一直是整个生态的薄弱环节。你可以搭建世界上最精密的 agent 框架，但如果你的基准测试让中等模型靠运气过关，你就是在盲飞。Claw-Eval 是第一个在规模上认真对待这个问题的基准测试。

https://github.com/claw-eval/claw-eval

← 上一篇

Amazon S3 Files：AI Agent 等了十年的基础设施

← 返回所有文章

加载中...

Claw-Eval：终于有个不说谎的 Agent 基准测试了

更多文章

评论