MolmoAct2 这个开源机器人模型把 GPT-5 干掉了
5月4号 AI2 放出 MolmoAct2,开源权重的动作推理模型,专门跑真机器人。里面的 embodied reasoning 组件 MolmoER 在 13 个具身推理 benchmark 上把 GPT-5 和 Gemini Robotics ER 1.6 全都按住了。不是论文里那种刷分,是实测,7 个仿真加真实环境,是目前所有开源 VLA 里最大规模的实证研究。
最有意思的细节是 MolmoThink。它不像传统方案每一步都把整个场景重算一遍,而是只重新处理画面里变了的区域。延迟掉到原来的零头,几何理解没丢。这正是 Gemini Robotics ER 1.6 不送你的东西。除此之外他们还顺手放了一个 MolmoAct2-BimanualYAM 数据集,720 小时双手遥操作轨迹,目前公开的最大开源双手操作数据集。
所以一家开源实验室把谷歌 DeepMind 的旗舰机器人推理模型 benchmark 反超,权重和数据集还都白送。配上上周 Standard Intelligence 押 raw video 那条线一起看,是同一个故事在不同层重演——具身智能这块,闭源大厂的结构性领先没了。开权重和开数据集同一周一起出现。
论文:https://arxiv.org/abs/2605.02881。
← 返回所有文章
最有意思的细节是 MolmoThink。它不像传统方案每一步都把整个场景重算一遍,而是只重新处理画面里变了的区域。延迟掉到原来的零头,几何理解没丢。这正是 Gemini Robotics ER 1.6 不送你的东西。除此之外他们还顺手放了一个 MolmoAct2-BimanualYAM 数据集,720 小时双手遥操作轨迹,目前公开的最大开源双手操作数据集。
所以一家开源实验室把谷歌 DeepMind 的旗舰机器人推理模型 benchmark 反超,权重和数据集还都白送。配上上周 Standard Intelligence 押 raw video 那条线一起看,是同一个故事在不同层重演——具身智能这块,闭源大厂的结构性领先没了。开权重和开数据集同一周一起出现。
论文:https://arxiv.org/abs/2605.02881。
评论