2026年5月1日BenchmarkResearchAgents

Claw-Eval-Live:一个跟着真实世界刷新的agent基准

5月1日上了一个叫Claw-Eval-Live的agent新基准,想法很显然但少有人做:agent在生产里面对的是会变的工作流,那评测也应该跟着变。105个任务覆盖商业服务和本地工作区修复,13个前沿模型用统一的公共通过规则跑,加一层可刷新的信号——每次发布都从公共工作流需求里拉新数据。

值得读这篇论文的核心数字是头条:最强的模型只过66.7%,没有一个模型跨过70%。持续失败的地方集中在HR、管理、多系统的商业工作流。本地工作区修复——也就是coding agent擅长的那种单app外科手术式修复——相对容易。难的不是单工具推理。难的是跨系统、跨利益方的协调,恰好是人类真正拿钱做的那部分。

让这个结果立得住的方法学选择:证据具体的时候用确定性检查,只在语义维度用结构化的LLM-judging,评测建在执行trace、审计日志、服务状态和工作区产物上。不光看最终答复,全链路都验证agent行为。这是对的范式。现有大多数benchmark只给答案打分,跳过了踪迹。

Claw-Eval-Live是三周内第三篇撞同一堵墙的重要评测论文——Synthetic Computers at Scale、WindowsWorld,再加这个。模式已经清楚了:业内说了半年的evaluation crisis正在变成一个有具体交付物的实际研究项目。值得盯一下claw-eval-live.github.io上的排行榜。

https://arxiv.org/abs/2604.28139
← 上一篇
一篇论文刚论证LangGraph和CrewAI已经过时了
下一篇 →
OpenAI开始发硬件密钥。Trusted Access层正式落地
← 返回所有文章

评论

加载中...
>_