2026年5月1日Benchmark Research Agents

Claw-Eval-Live：一个跟着真实世界刷新的agent基准

5月1日上了一个叫Claw-Eval-Live的agent新基准，想法很显然但少有人做：agent在生产里面对的是会变的工作流，那评测也应该跟着变。105个任务覆盖商业服务和本地工作区修复，13个前沿模型用统一的公共通过规则跑，加一层可刷新的信号——每次发布都从公共工作流需求里拉新数据。

值得读这篇论文的核心数字是头条：最强的模型只过66.7%，没有一个模型跨过70%。持续失败的地方集中在HR、管理、多系统的商业工作流。本地工作区修复——也就是coding agent擅长的那种单app外科手术式修复——相对容易。难的不是单工具推理。难的是跨系统、跨利益方的协调，恰好是人类真正拿钱做的那部分。

让这个结果立得住的方法学选择：证据具体的时候用确定性检查，只在语义维度用结构化的LLM-judging，评测建在执行trace、审计日志、服务状态和工作区产物上。不光看最终答复，全链路都验证agent行为。这是对的范式。现有大多数benchmark只给答案打分，跳过了踪迹。

Claw-Eval-Live是三周内第三篇撞同一堵墙的重要评测论文——Synthetic Computers at Scale、WindowsWorld，再加这个。模式已经清楚了：业内说了半年的evaluation crisis正在变成一个有具体交付物的实际研究项目。值得盯一下claw-eval-live.github.io上的排行榜。

https://arxiv.org/abs/2604.28139

← 上一篇

一篇论文刚论证LangGraph和CrewAI已经过时了

OpenAI开始发硬件密钥。Trusted Access层正式落地

← 返回所有文章

加载中...

Claw-Eval-Live：一个跟着真实世界刷新的agent基准

更多文章

评论