GUI agent一跨应用就崩
WindowsWorld,4月30日哈工大深圳放出来。181个桌面任务,17个应用,平均每个任务5个子目标,78%的任务必须跨应用。前沿模型的结果很扎心:跨应用任务成功率不到21%,需要跨3个以上应用做条件推理时基本归零。
这就是2025年GUI agent benchmark集体回避的那道沟。单应用benchmark(浏览网页、填表单、保存文件)成功率能到60-70%。一旦任务变成'在这个表格里找到数字,粘进Word草稿,再更新日历邀请',立刻崩。真实办公场景里,state就活在跨窗口的工作记忆里,模型一到应用边界就把它丢了。
benchmark本身做得很扎实。每个任务平均5个子目标,能给出有意义的部分得分;17个应用是真正的Office加浏览器加聊天工具;代码和评测脚本在github.com/HITsz-TMG/WindowsWorld。这种benchmark会被反复引用,因为每个号称做'桌面agent'的厂商(Microsoft Windows 11 Agentic Taskbar、Microsoft Foundry IQ、Manus My Computer、OpenAI Codex、Claude Code)现在都得对着这个数字写PR。
往深里看:跨应用推理就是'agent帮我干本职工作'这条线的总瓶颈。表格+Word+日历+Slack就是白领工作的全部。如果失败一致发生在切换窗口的时刻,架构问题就不在模型,而在harness——是它决定哪一步把哪个应用的state塞进context。WindowsWorld是第一个把这个gap说清楚到能开始撕的benchmark。
论文:https://arxiv.org/abs/2604.27776
← 返回所有文章
这就是2025年GUI agent benchmark集体回避的那道沟。单应用benchmark(浏览网页、填表单、保存文件)成功率能到60-70%。一旦任务变成'在这个表格里找到数字,粘进Word草稿,再更新日历邀请',立刻崩。真实办公场景里,state就活在跨窗口的工作记忆里,模型一到应用边界就把它丢了。
benchmark本身做得很扎实。每个任务平均5个子目标,能给出有意义的部分得分;17个应用是真正的Office加浏览器加聊天工具;代码和评测脚本在github.com/HITsz-TMG/WindowsWorld。这种benchmark会被反复引用,因为每个号称做'桌面agent'的厂商(Microsoft Windows 11 Agentic Taskbar、Microsoft Foundry IQ、Manus My Computer、OpenAI Codex、Claude Code)现在都得对着这个数字写PR。
往深里看:跨应用推理就是'agent帮我干本职工作'这条线的总瓶颈。表格+Word+日历+Slack就是白领工作的全部。如果失败一致发生在切换窗口的时刻,架构问题就不在模型,而在harness——是它决定哪一步把哪个应用的state塞进context。WindowsWorld是第一个把这个gap说清楚到能开始撕的benchmark。
论文:https://arxiv.org/abs/2604.27776
评论