2026年4月25日Agents Research Benchmark

VLAA-GUI在OSWorld打败人类，靠的是知道什么时候该停

GUI agent的失败模式翻来覆去就两种。要么任务没完成它说完成了，要么死循环里反复点同一个错按钮。UCSC刚发的一篇论文把这两个问题都解决了，数字硬。

VLAA-GUI是个模块化框架，在任何backbone模型上加三个组件。Completeness Verifier在agent声称完成时强制对照UI可观察的成功条件做交叉审查，不让它随便退出。Loop Breaker盯着重复失败，触发策略切换——先换交互模式，再换模态，最后强制反思。Search Agent遇到不熟悉的工作流时用纯文本去问更强的LLM。

结果：OSWorld成功率77.5%，超过人类基线72.4%。WindowsAgentArena 61.0%。测试的5个backbone里有3个（包括Opus 4.5、4.6和Gemini 3.1 Pro）越过人类线。光是Loop Breaker一个组件就把容易循环的模型的浪费步骤砍掉了将近一半。

大多数人会忽略的点：这里每个组件都是一个agent在对另一个agent做meta工作。不是更好的tokenizer，不是更强的grounding模型，就是多一个LLM在点击之前问一句「你确定完成了吗」。这是这个季度见过性价比最高的5分benchmark涨幅，而且可以白嫖式地接到任何现成GUI agent上。

https://arxiv.org/abs/2604.21375

← 上一篇

Stash：让任何MCP agent都拥有Claude.ai那种记忆

VT Code：第一个把安全当成正经事的编码agent

← 返回所有文章

加载中...

VLAA-GUI在OSWorld打败人类，靠的是知道什么时候该停

相关文章

评论