2026年4月10日BenchmarkAgentsResearch

ClawBench:AI Agent 做日常网上任务只拿了 33 分

有个数字值得所有做消费级 AI agent 的人警醒:Claude Sonnet 4.6,表现最好的模型,在 ClawBench 上只拿了 33.3%。GPT-5.4 更惨,6.5%。

ClawBench 跟现有基准测试不一样,它是在真实生产网站上跑的,不是静态 HTML 搭的沙箱模拟。测试的都是普通人经常做的事:买东西、订预约、投简历、填各种详细表单。153 个任务覆盖 144 个真实网站、15 个生活类别。用一个轻量级拦截层捕获并阻止最终提交请求,agent 跟真网站交互但不会真的完成交易。

基准测试分数和真实世界表现之间的差距非常刺眼。这些模型在 WebVoyager 等传统 web 基准上能拿 65-75%,但一放到真实网站上,面对真正的表单、动态内容和多步骤流程,成绩直接崩盘。论文测了 7 个前沿模型,没一个过 35%。

这很重要,因为整个行业都在急着给消费者部署 web agent。ClawBench 告诉你:我们还没准备好。下次有人跟你说他们的 agent 能上网帮你办事,问问他们 ClawBench 得几分。

https://claw-bench.com
← 上一篇
Twill.ai:YC 孵化的云端编程 Agent,你睡觉它提 PR
下一篇 →
Pomo 融 450 万美元种子轮,用 Agent 智能做营销决策
← 返回所有文章

评论

加载中...
>_