2026年5月30日Research Agents Framework

Qwen-VLA 想用一个模型管所有机器人

阿里 Qwen 团队 5 月 28 日放出 Qwen-VLA，一个 vision-language-action 模型，同时管抓取、导航和轨迹预测，而且跨完全不同的机器人本体。ALOHA、WidowX、R2R 里的导航 agent，全部一套架构。动作头用的是 Diffusion Transformer，条件化的小招是 embodiment-aware prompt——用自然语言描述当前是哪台机器人。HuggingFace 上 72 票。

数字摆出来：LIBERO 97.9%，Simpler-WidowX 73.7%，R2R 导航 OSR 69.0%，真实 ALOHA 在分布外平均 76.9%，DOMINO 上零样本 26.6%。最硬的卖点是本体泛化——你描述身体，它就能换策略，光照、布局、背景换了，分数也能保持住。

退一步看，这件事对整个 VLA 品类的影响更大。一直到不久前，这个领域都是碎的——一台机器人一个模型，一种任务一个数据集，一份数据集一组参数。Qwen-VLA 是大厂第一次摆出可信的姿态：一个基础模型可以扛起整套具身 agent，就像 GPT-4o 这一档扛起语言那一套。Google、Physical Intelligence、特斯拉、阿里——谁先把这次收编做完，就拿下了所有要接触物理世界的 agent 的底层身体。

https://arxiv.org/abs/2605.30280

← 上一篇

一个 1B 的小看门狗在安全榜上打平 GPT-5.4

超级用户日报: 2026-05-30

← 返回所有文章

加载中...

Qwen-VLA 想用一个模型管所有机器人

相关文章

评论