2026年5月15日Benchmark Research Agents

WildClawBench 说 Claude Opus 4.7 也才打到 62.2%

InternLM 上周在 arXiv 放了 WildClawBench（2605.10912）。设置是这样——60 个人工出题的双语多模态任务，跑在真实的命令行 harness 里面，不是合成的 agent 沙箱。17 个作者，代码跟容器都开源了，今天 HF 上 35 个赞。

任务设计本身就是重点。每道题大约要 8 分钟挂钟时间、20 次以上工具调用。六个主题类别。题目是人写的不是模板生成的，所以覆盖的是真实的长 horizon 工作——调试一个多语言代码库、协调跨多文件的重构、在多个 CLI 会话之间传递状态——而不是老 benchmark 那种罐头场景。

结果挺扎人。Claude Opus 4.7 以 62.2% 完成率领先。榜上其他模型全部低于 60%。一共测了 19 个 SOTA 模型。harness 敏感性这个发现更难受——同一个模型只是换 harness，分数能动 18 个百分点。这个差距比大多数 benchmark 里前三名之间的差距都大。

这印证了一件事——在 agent 实际部署的 runtime 里搭的 benchmark，得分会系统性低于合成环境。「agent 推理质量」（玩具 benchmark 上很高）跟「agent 任务完成度」（WildClawBench 上一般）之间这个鸿沟，就是 2026 年整个 agent 基础设施品类活着的地方。结构上跟今天早上那篇语音侧的 EVA-Bench 配套——两边都给出一个真正定义品类的数字，而当下生产栈过不去。评测工具在 github.com/internlm/WildClawBench。

← 上一篇

AgentRail 想做你 coding agent 的运维层

EvolveMem 让 agent 记忆自己改自己的配置

← 返回所有文章

加载中...

WildClawBench 说 Claude Opus 4.7 也才打到 62.2%

更多文章

评论