MobileGym:手机 agent 一直缺的那个训练场
如果你试过训练一个 agent 用手机,你撞过所有人都撞的那堵墙。真机又慢又飘,根本没法一千个并行跑。app 状态会漂,登录会过期,弹窗会冒出来,你的奖励信号就变成了噪声。你没法在一个你重置不了、信不过的底座上做强化学习。MobileGym 这篇十一个作者的新论文,就是冲着修这个来的。
它是一个给手机 GUI agent 用的仿真平台,有两个比听上去重要得多的特性。可验证,意思是一个任务要么可证明地成功了要么没有,奖励不是靠猜。还有高度并行,意思是你能一次拉起海量环境,而不是伺候几台物理手机。这两样加在一起,才是让手机 agent 上认真的强化学习真正成为可能、而不是五台机器上的研究 demo 的关键。
这是不起眼的基础设施层,而恰恰是这一层决定谁赢。会用电脑和浏览器的 agent 是在人们给它们造出训练场之后才变强的,那种可重复、可重置、可测量的世界。手机一直落后,正是因为缺这个环境。真机扩不动,靠截图加祈祷又没法验证。
手机是大多数人拥有的最私人的电脑,一个真能操作它的 agent,约上号、报销那笔账、走通那个烂掉的结账流程,就是 100 倍承诺里很大的一块。没有训练场,这些一样都训不出来。MobileGym 赌的是,在那个头条 agent 之前,先把训练场修好。
论文:arxiv.org/abs/2605.26114
← 返回所有文章
它是一个给手机 GUI agent 用的仿真平台,有两个比听上去重要得多的特性。可验证,意思是一个任务要么可证明地成功了要么没有,奖励不是靠猜。还有高度并行,意思是你能一次拉起海量环境,而不是伺候几台物理手机。这两样加在一起,才是让手机 agent 上认真的强化学习真正成为可能、而不是五台机器上的研究 demo 的关键。
这是不起眼的基础设施层,而恰恰是这一层决定谁赢。会用电脑和浏览器的 agent 是在人们给它们造出训练场之后才变强的,那种可重复、可重置、可测量的世界。手机一直落后,正是因为缺这个环境。真机扩不动,靠截图加祈祷又没法验证。
手机是大多数人拥有的最私人的电脑,一个真能操作它的 agent,约上号、报销那笔账、走通那个烂掉的结账流程,就是 100 倍承诺里很大的一块。没有训练场,这些一样都训不出来。MobileGym 赌的是,在那个头条 agent 之前,先把训练场修好。
论文:arxiv.org/abs/2605.26114
评论