2026年5月15日BenchmarkResearchAgents

WildClawBench 说 Claude Opus 4.7 也才打到 62.2%

InternLM 上周在 arXiv 放了 WildClawBench(2605.10912)。设置是这样——60 个人工出题的双语多模态任务,跑在真实的命令行 harness 里面,不是合成的 agent 沙箱。17 个作者,代码跟容器都开源了,今天 HF 上 35 个赞。

任务设计本身就是重点。每道题大约要 8 分钟挂钟时间、20 次以上工具调用。六个主题类别。题目是人写的不是模板生成的,所以覆盖的是真实的长 horizon 工作——调试一个多语言代码库、协调跨多文件的重构、在多个 CLI 会话之间传递状态——而不是老 benchmark 那种罐头场景。

结果挺扎人。Claude Opus 4.7 以 62.2% 完成率领先。榜上其他模型全部低于 60%。一共测了 19 个 SOTA 模型。harness 敏感性这个发现更难受——同一个模型只是换 harness,分数能动 18 个百分点。这个差距比大多数 benchmark 里前三名之间的差距都大。

这印证了一件事——在 agent 实际部署的 runtime 里搭的 benchmark,得分会系统性低于合成环境。「agent 推理质量」(玩具 benchmark 上很高)跟「agent 任务完成度」(WildClawBench 上一般)之间这个鸿沟,就是 2026 年整个 agent 基础设施品类活着的地方。结构上跟今天早上那篇语音侧的 EVA-Bench 配套——两边都给出一个真正定义品类的数字,而当下生产栈过不去。评测工具在 github.com/internlm/WildClawBench。
← 上一篇
AgentRail 想做你 coding agent 的运维层
下一篇 →
EvolveMem 让 agent 记忆自己改自己的配置
← 返回所有文章

评论

加载中...
>_