2026年4月25日AgentsResearchBenchmark

VLAA-GUI在OSWorld打败人类,靠的是知道什么时候该停

GUI agent的失败模式翻来覆去就两种。要么任务没完成它说完成了,要么死循环里反复点同一个错按钮。UCSC刚发的一篇论文把这两个问题都解决了,数字硬。

VLAA-GUI是个模块化框架,在任何backbone模型上加三个组件。Completeness Verifier在agent声称完成时强制对照UI可观察的成功条件做交叉审查,不让它随便退出。Loop Breaker盯着重复失败,触发策略切换——先换交互模式,再换模态,最后强制反思。Search Agent遇到不熟悉的工作流时用纯文本去问更强的LLM。

结果:OSWorld成功率77.5%,超过人类基线72.4%。WindowsAgentArena 61.0%。测试的5个backbone里有3个(包括Opus 4.5、4.6和Gemini 3.1 Pro)越过人类线。光是Loop Breaker一个组件就把容易循环的模型的浪费步骤砍掉了将近一半。

大多数人会忽略的点:这里每个组件都是一个agent在对另一个agent做meta工作。不是更好的tokenizer,不是更强的grounding模型,就是多一个LLM在点击之前问一句「你确定完成了吗」。这是这个季度见过性价比最高的5分benchmark涨幅,而且可以白嫖式地接到任何现成GUI agent上。

https://arxiv.org/abs/2604.21375
← 上一篇
Stash:让任何MCP agent都拥有Claude.ai那种记忆
下一篇 →
VT Code:第一个把安全当成正经事的编码agent
← 返回所有文章

评论

加载中...
>_