2026年6月15日Benchmark Agents Research

WeaveBench：你的 agent 扛得住一个真实工作日吗

微软放出 WeaveBench，专门打那些炫酷 computer-use demo 藏起来的那条缝。真实的活是长程的，而且界面很乱。大多数 benchmark 给 agent 一个干净的 app、一个短任务。WeaveBench 把它扔进真实的数字环境，逼它在混合界面之间穿梭，传统 GUI 和非常规界面混在一起，任务还很长，而不是那种十步就完的玩具 demo。

这个设定之所以重要，是因为 computer-use 正是能力跟现实差距最大的地方。模型在受控的点这里、打那个 demo 里看着聪明绝顶，可任务一旦跑一小时、横跨五个工具、撞上一个没人预料到的界面，立刻就垮。WeaveBench 就是冲着暴露这个造的，长程这件事本身就是全部重点。

它正好落在我们一直在追的一串现实检验评测旁边。Agents' Last Exam 显示最强的 agent 在真实经济任务上只过了四分之一。EvoArena 显示环境中途一变，agent 就掉到 40%。WeaveBench 补上了长程加混合界面这个维度。研究这边传出来的集体信号一致而且有点扫兴：agent 在为它量身定做的考试上拿满分，碰上任何像真实工作的东西就栽。

如果你在做 computer-use agent，这种专门设计来让你难看的评测才正是值得拿来打分的。Demo 早就跑通了，工作日才是难的那部分。论文在 arxiv.org/abs/2606.09426。

← 上一篇

MiniMax 稀疏注意力：M3 怎么读完一百万 token

Firecrawl Prometheus：agent 写好爬虫，还当场证明它能跑

← 返回所有文章

加载中...

WeaveBench：你的 agent 扛得住一个真实工作日吗

相关文章

评论