2026年5月13日Research Agents Benchmark

阿里通义实验室 ToolCUA：教 computer-use agent 何时点击何时调 API

阿里通义实验室 5 月 12 日在 arXiv 上发了 ToolCUA（2605.12481），HuggingFace 22 个 upvote。论点不大但很要紧：现在的 computer-use agent 走的都是单一模式。要么只走 GUI 点击和输入，要么只走 MCP 风格的 API 调用。两种模式各有死角。GUI agent 跟控件死磕，明明有 API 一句话能搞定；纯 tool agent 一旦遇到只能屏幕操作的路径就卡死。

ToolCUA 的答案是训练 agent 学会切换。训练流水线生成 GUI-Tool 交错轨迹——同一个任务、多条动作路径、模态混合——再用 RL 学到底什么节点上切换最有意义。主结果是 OSWorld-MCP 46.85% 准确率，相对基线提升约 66%，比纯 GUI 方法绝对值高 3.9 个点。

为什么这个方向值得做。Anthropic 的 computer use、OpenAI 的 Operator、Google 昨天发的 Magic Pointer——大厂都在向同一个观点收敛：agent 需要同时具备视觉定位和工具调用，不是二选一。ToolCUA 是这个论点的开源学术版，且给出了一个干净的数字。如果你在做 computer-use agent，这篇论文是支持「训练集必须从第一天就用混合模态轨迹」的最好弹药。

项目：https://x-plug.github.io/ToolCUA/
论文：https://arxiv.org/abs/2605.12481

← 上一篇

Google 的 RubricEM：用打分表训练 Deep Research agent

Hopper：第一个面向大型机的 agentic IDE

← 返回所有文章

加载中...

阿里通义实验室 ToolCUA：教 computer-use agent 何时点击何时调 API

相关文章

评论