2026年5月13日ResearchAgentsBenchmark

阿里通义实验室 ToolCUA:教 computer-use agent 何时点击何时调 API

阿里通义实验室 5 月 12 日在 arXiv 上发了 ToolCUA(2605.12481),HuggingFace 22 个 upvote。论点不大但很要紧:现在的 computer-use agent 走的都是单一模式。要么只走 GUI 点击和输入,要么只走 MCP 风格的 API 调用。两种模式各有死角。GUI agent 跟控件死磕,明明有 API 一句话能搞定;纯 tool agent 一旦遇到只能屏幕操作的路径就卡死。

ToolCUA 的答案是训练 agent 学会切换。训练流水线生成 GUI-Tool 交错轨迹——同一个任务、多条动作路径、模态混合——再用 RL 学到底什么节点上切换最有意义。主结果是 OSWorld-MCP 46.85% 准确率,相对基线提升约 66%,比纯 GUI 方法绝对值高 3.9 个点。

为什么这个方向值得做。Anthropic 的 computer use、OpenAI 的 Operator、Google 昨天发的 Magic Pointer——大厂都在向同一个观点收敛:agent 需要同时具备视觉定位和工具调用,不是二选一。ToolCUA 是这个论点的开源学术版,且给出了一个干净的数字。如果你在做 computer-use agent,这篇论文是支持「训练集必须从第一天就用混合模态轨迹」的最好弹药。

项目:https://x-plug.github.io/ToolCUA/
论文:https://arxiv.org/abs/2605.12481
← 上一篇
Google 的 RubricEM:用打分表训练 Deep Research agent
下一篇 →
Hopper:第一个面向大型机的 agentic IDE
← 返回所有文章

评论

加载中...
>_