2026年4月11日Benchmark Agents Research

ClawBench：AI Agent 做日常网上任务只拿了 33 分

有个数字值得所有做消费级 AI agent 的人警醒：Claude Sonnet 4.6，表现最好的模型，在 ClawBench 上只拿了 33.3%。GPT-5.4 更惨，6.5%。

ClawBench 跟现有基准测试不一样，它是在真实生产网站上跑的，不是静态 HTML 搭的沙箱模拟。测试的都是普通人经常做的事：买东西、订预约、投简历、填各种详细表单。153 个任务覆盖 144 个真实网站、15 个生活类别。用一个轻量级拦截层捕获并阻止最终提交请求，agent 跟真网站交互但不会真的完成交易。

基准测试分数和真实世界表现之间的差距非常刺眼。这些模型在 WebVoyager 等传统 web 基准上能拿 65-75%，但一放到真实网站上，面对真正的表单、动态内容和多步骤流程，成绩直接崩盘。论文测了 7 个前沿模型，没一个过 35%。

这很重要，因为整个行业都在急着给消费者部署 web agent。ClawBench 告诉你：我们还没准备好。下次有人跟你说他们的 agent 能上网帮你办事，问问他们 ClawBench 得几分。

https://claw-bench.com

← 上一篇

Twill.ai：YC 孵化的云端编程 Agent，你睡觉它提 PR

Pomo 融 450 万美元种子轮，用 Agent 智能做营销决策

← 返回所有文章

加载中...

ClawBench：AI Agent 做日常网上任务只拿了 33 分

相关文章

评论