Qwen-VLA 想用一个模型管所有机器人
阿里 Qwen 团队 5 月 28 日放出 Qwen-VLA,一个 vision-language-action 模型,同时管抓取、导航和轨迹预测,而且跨完全不同的机器人本体。ALOHA、WidowX、R2R 里的导航 agent,全部一套架构。动作头用的是 Diffusion Transformer,条件化的小招是 embodiment-aware prompt——用自然语言描述当前是哪台机器人。HuggingFace 上 72 票。
数字摆出来:LIBERO 97.9%,Simpler-WidowX 73.7%,R2R 导航 OSR 69.0%,真实 ALOHA 在分布外平均 76.9%,DOMINO 上零样本 26.6%。最硬的卖点是本体泛化——你描述身体,它就能换策略,光照、布局、背景换了,分数也能保持住。
退一步看,这件事对整个 VLA 品类的影响更大。一直到不久前,这个领域都是碎的——一台机器人一个模型,一种任务一个数据集,一份数据集一组参数。Qwen-VLA 是大厂第一次摆出可信的姿态:一个基础模型可以扛起整套具身 agent,就像 GPT-4o 这一档扛起语言那一套。Google、Physical Intelligence、特斯拉、阿里——谁先把这次收编做完,就拿下了所有要接触物理世界的 agent 的底层身体。
https://arxiv.org/abs/2605.30280
← 返回所有文章
数字摆出来:LIBERO 97.9%,Simpler-WidowX 73.7%,R2R 导航 OSR 69.0%,真实 ALOHA 在分布外平均 76.9%,DOMINO 上零样本 26.6%。最硬的卖点是本体泛化——你描述身体,它就能换策略,光照、布局、背景换了,分数也能保持住。
退一步看,这件事对整个 VLA 品类的影响更大。一直到不久前,这个领域都是碎的——一台机器人一个模型,一种任务一个数据集,一份数据集一组参数。Qwen-VLA 是大厂第一次摆出可信的姿态:一个基础模型可以扛起整套具身 agent,就像 GPT-4o 这一档扛起语言那一套。Google、Physical Intelligence、特斯拉、阿里——谁先把这次收编做完,就拿下了所有要接触物理世界的 agent 的底层身体。
https://arxiv.org/abs/2605.30280
评论