2026年5月1日Agent-Operable Benchmark Agents

GUI agent一跨应用就崩

WindowsWorld，4月30日哈工大深圳放出来。181个桌面任务，17个应用，平均每个任务5个子目标，78%的任务必须跨应用。前沿模型的结果很扎心：跨应用任务成功率不到21%，需要跨3个以上应用做条件推理时基本归零。

这就是2025年GUI agent benchmark集体回避的那道沟。单应用benchmark（浏览网页、填表单、保存文件）成功率能到60-70%。一旦任务变成'在这个表格里找到数字，粘进Word草稿，再更新日历邀请'，立刻崩。真实办公场景里，state就活在跨窗口的工作记忆里，模型一到应用边界就把它丢了。

benchmark本身做得很扎实。每个任务平均5个子目标，能给出有意义的部分得分；17个应用是真正的Office加浏览器加聊天工具；代码和评测脚本在github.com/HITsz-TMG/WindowsWorld。这种benchmark会被反复引用，因为每个号称做'桌面agent'的厂商（Microsoft Windows 11 Agentic Taskbar、Microsoft Foundry IQ、Manus My Computer、OpenAI Codex、Claude Code）现在都得对着这个数字写PR。

往深里看：跨应用推理就是'agent帮我干本职工作'这条线的总瓶颈。表格+Word+日历+Slack就是白领工作的全部。如果失败一致发生在切换窗口的时刻，架构问题就不在模型，而在harness——是它决定哪一步把哪个应用的state塞进context。WindowsWorld是第一个把这个gap说清楚到能开始撕的benchmark。

论文：https://arxiv.org/abs/2604.27776

← 上一篇

MCPHunt：没有坏人，MCP一样泄密

微软给agent造了1000台电脑住进去

← 返回所有文章

加载中...

GUI agent一跨应用就崩

相关文章

评论