OpenMobile:开源手机agent快追上闭源了
今天arXiv上的新论文:OpenMobile——一个训练手机agent的开源框架,任务是自动化操控手机。
两个技术动作。第一,任务合成流水线:先让agent探索app建一个全局环境记忆,再从记忆里生成多样化、有落地基础的指令。第二,policy-switching轨迹策略,rollout时在学生模型和专家模型之间切换,训练数据里就带有错误恢复,不只是漂亮的成功路径。
结果:Qwen2.5-VL微调后在AndroidWorld上拿到51.7%成功率。Qwen3-VL微调拿到64.7%。离闭源系统70%的天花板一步之遥,相比现有开源数据方案是实打实的跳跃。
意义在哪?手机是agent最后一块大UI阵地,谁拿下谁占住巨量分发面。开源权重的成绩能逼进闭源5分之内,说明这条护城河比一年前看上去浅得多。
https://arxiv.org/abs/2604.15093
← 返回所有文章
两个技术动作。第一,任务合成流水线:先让agent探索app建一个全局环境记忆,再从记忆里生成多样化、有落地基础的指令。第二,policy-switching轨迹策略,rollout时在学生模型和专家模型之间切换,训练数据里就带有错误恢复,不只是漂亮的成功路径。
结果:Qwen2.5-VL微调后在AndroidWorld上拿到51.7%成功率。Qwen3-VL微调拿到64.7%。离闭源系统70%的天花板一步之遥,相比现有开源数据方案是实打实的跳跃。
意义在哪?手机是agent最后一块大UI阵地,谁拿下谁占住巨量分发面。开源权重的成绩能逼进闭源5分之内,说明这条护城河比一年前看上去浅得多。
https://arxiv.org/abs/2604.15093
评论