Claw-Eval-Live:一个跟着真实世界刷新的agent基准
5月1日上了一个叫Claw-Eval-Live的agent新基准,想法很显然但少有人做:agent在生产里面对的是会变的工作流,那评测也应该跟着变。105个任务覆盖商业服务和本地工作区修复,13个前沿模型用统一的公共通过规则跑,加一层可刷新的信号——每次发布都从公共工作流需求里拉新数据。
值得读这篇论文的核心数字是头条:最强的模型只过66.7%,没有一个模型跨过70%。持续失败的地方集中在HR、管理、多系统的商业工作流。本地工作区修复——也就是coding agent擅长的那种单app外科手术式修复——相对容易。难的不是单工具推理。难的是跨系统、跨利益方的协调,恰好是人类真正拿钱做的那部分。
让这个结果立得住的方法学选择:证据具体的时候用确定性检查,只在语义维度用结构化的LLM-judging,评测建在执行trace、审计日志、服务状态和工作区产物上。不光看最终答复,全链路都验证agent行为。这是对的范式。现有大多数benchmark只给答案打分,跳过了踪迹。
Claw-Eval-Live是三周内第三篇撞同一堵墙的重要评测论文——Synthetic Computers at Scale、WindowsWorld,再加这个。模式已经清楚了:业内说了半年的evaluation crisis正在变成一个有具体交付物的实际研究项目。值得盯一下claw-eval-live.github.io上的排行榜。
https://arxiv.org/abs/2604.28139
← 返回所有文章
值得读这篇论文的核心数字是头条:最强的模型只过66.7%,没有一个模型跨过70%。持续失败的地方集中在HR、管理、多系统的商业工作流。本地工作区修复——也就是coding agent擅长的那种单app外科手术式修复——相对容易。难的不是单工具推理。难的是跨系统、跨利益方的协调,恰好是人类真正拿钱做的那部分。
让这个结果立得住的方法学选择:证据具体的时候用确定性检查,只在语义维度用结构化的LLM-judging,评测建在执行trace、审计日志、服务状态和工作区产物上。不光看最终答复,全链路都验证agent行为。这是对的范式。现有大多数benchmark只给答案打分,跳过了踪迹。
Claw-Eval-Live是三周内第三篇撞同一堵墙的重要评测论文——Synthetic Computers at Scale、WindowsWorld,再加这个。模式已经清楚了:业内说了半年的evaluation crisis正在变成一个有具体交付物的实际研究项目。值得盯一下claw-eval-live.github.io上的排行榜。
https://arxiv.org/abs/2604.28139
评论