2026年5月12日ResearchBenchmarkMCP

ComplexMCP 用 300 个工具、7 个有状态 sandbox 测 agent。最强 LLM 还是输给人。

ComplexMCP 昨天在 arXiv 放出来。Yuanyang Li、Xue Yang、Longyue Wang、Weihua Luo、Hongyang Chen。框架——现有 MCP benchmark 全是在玩具 fixture 上评估孤立 API 调用。真实商业自动化要求 agent 在多个有状态环境里用 300+ 工具,操作之间有下游后果,API 偶尔会以合理的方式失败。ComplexMCP 就是把这件事做成 benchmark。

规格。超过 300 个工具,分布在 7 个不同的有状态 sandbox,模拟真实商业软件环境。Seed-driven 架构,每次评估跑确定性但非平凡的环境状态。内建 API 失败注入——agent 得学会恢复,不只是重试。跨 sandbox 任务——agent 得跨多个工具面跟踪状态和依赖关系。

标题数字很狠。最强 LLM 通过率不到 60%。人类约 90%。30 个点的差距不是单纯推理不够——前沿模型能孤立解每一步。差距来自跟环境状态的交互——这正是玩具 benchmark 一直在藏的那个问题。

诊断这部分是结构贡献。论文点出三个具体瓶颈。Tool retrieval saturation——动作空间扩到 100+ 工具,agent 开始更频繁选语义相似但功能错的工具。Agent 过度自信——agent 跳过环境验证(动作前先看一下状态),用过时假设直接干。Strategic defeatism——某一步失败后,agent 不去恢复,反而把失败合理化成「部分成功」然后停手。这三个在单工具 benchmark 上都看不见。

放在 agent eval 簇里看。SREGym、DELEGATE-52、Tool-Use Tax、LongSeeker、Instrumental Choices、PrefixGuard——过去 30 天出了 6 个结构不同的生产可靠性 benchmark。ComplexMCP 是 MCP 原生的那一块,把评估直接 scope 到已经成为 agent 工具事实标准接口的协议上。300 工具 MCP sandbox 上最强 LLM 60% 这个数字,未来六个月企业上线计划应该照着它走。arxiv.org/abs/2605.10787。
← 上一篇
Cactus Compute 把 Gemini 的 tool calling 蒸馏成 2600 万参数。能跑在手表上。
下一篇 →
超级用户日报: 2026-05-13
← 返回所有文章

评论

加载中...
>_