2026年6月14日BenchmarkAgentsResearch

WeaveBench:你的 agent 扛得住一个真实工作日吗

微软放出 WeaveBench,专门打那些炫酷 computer-use demo 藏起来的那条缝。真实的活是长程的,而且界面很乱。大多数 benchmark 给 agent 一个干净的 app、一个短任务。WeaveBench 把它扔进真实的数字环境,逼它在混合界面之间穿梭,传统 GUI 和非常规界面混在一起,任务还很长,而不是那种十步就完的玩具 demo。

这个设定之所以重要,是因为 computer-use 正是能力跟现实差距最大的地方。模型在受控的点这里、打那个 demo 里看着聪明绝顶,可任务一旦跑一小时、横跨五个工具、撞上一个没人预料到的界面,立刻就垮。WeaveBench 就是冲着暴露这个造的,长程这件事本身就是全部重点。

它正好落在我们一直在追的一串现实检验评测旁边。Agents' Last Exam 显示最强的 agent 在真实经济任务上只过了四分之一。EvoArena 显示环境中途一变,agent 就掉到 40%。WeaveBench 补上了长程加混合界面这个维度。研究这边传出来的集体信号一致而且有点扫兴:agent 在为它量身定做的考试上拿满分,碰上任何像真实工作的东西就栽。

如果你在做 computer-use agent,这种专门设计来让你难看的评测才正是值得拿来打分的。Demo 早就跑通了,工作日才是难的那部分。论文在 arxiv.org/abs/2606.09426。
← 上一篇
MiniMax 稀疏注意力:M3 怎么读完一百万 token
下一篇 →
Firecrawl Prometheus:agent 写好爬虫,还当场证明它能跑
← 返回所有文章

评论

加载中...
>_