2026年5月1日Agent-OperableBenchmarkAgents

GUI agent一跨应用就崩

WindowsWorld,4月30日哈工大深圳放出来。181个桌面任务,17个应用,平均每个任务5个子目标,78%的任务必须跨应用。前沿模型的结果很扎心:跨应用任务成功率不到21%,需要跨3个以上应用做条件推理时基本归零。

这就是2025年GUI agent benchmark集体回避的那道沟。单应用benchmark(浏览网页、填表单、保存文件)成功率能到60-70%。一旦任务变成'在这个表格里找到数字,粘进Word草稿,再更新日历邀请',立刻崩。真实办公场景里,state就活在跨窗口的工作记忆里,模型一到应用边界就把它丢了。

benchmark本身做得很扎实。每个任务平均5个子目标,能给出有意义的部分得分;17个应用是真正的Office加浏览器加聊天工具;代码和评测脚本在github.com/HITsz-TMG/WindowsWorld。这种benchmark会被反复引用,因为每个号称做'桌面agent'的厂商(Microsoft Windows 11 Agentic Taskbar、Microsoft Foundry IQ、Manus My Computer、OpenAI Codex、Claude Code)现在都得对着这个数字写PR。

往深里看:跨应用推理就是'agent帮我干本职工作'这条线的总瓶颈。表格+Word+日历+Slack就是白领工作的全部。如果失败一致发生在切换窗口的时刻,架构问题就不在模型,而在harness——是它决定哪一步把哪个应用的state塞进context。WindowsWorld是第一个把这个gap说清楚到能开始撕的benchmark。

论文:https://arxiv.org/abs/2604.27776
← 上一篇
MCPHunt:没有坏人,MCP一样泄密
下一篇 →
微软给agent造了1000台电脑住进去
← 返回所有文章

评论

加载中...
>_