2026年4月11日ResearchOpen SourceAgents

腾讯开源 HY-Embodied — 给机器人装一个 2B 参数的大脑

腾讯刚开源了 HY-Embodied-0.5,可能是今年最实用的具身智能模型。两个版本:一个紧凑的 2B 跑在边缘设备上,一个 32B 用于重度推理。2B 版本已经在 16 个 benchmark 上打败了同尺寸的所有模型。

架构很聪明。用了 Mixture-of-Transformers(MoT),通过 latent token 做模态专属计算。说白了就是:模型高效处理不同类型的输入——文字指令、视觉场景、空间数据——不会在无关模态上浪费算力。这是专门为真实世界的机器人设计的,它们需要同时看、理解、规划和行动,而且要在有限的硬件上实时完成。

HY-Embodied 跟通用视觉语言模型的区别在于:它专注空间-时间感知和具身推理。它不只是描述看到了什么——它预测接下来会发生什么,规划交互方式,推理物理约束。32B 版本在具身任务上达到了跟 Gemini 3.0 Pro 相当的前沿水平。

训练方法也值得说。他们用了自演化后训练范式,大模型通过 on-policy 蒸馏教小模型。结果是一个远超自身体量的 2B 模型——小到能装进机器人的板载计算,聪明到真能干活。

HuggingFace Papers 上 343 个赞。权重、代码、训练流程全开源。如果你在做机器人或物理 AI 的任何东西,这个就是你的新基线。

https://github.com/Tencent-Hunyuan/HY-Embodied
← 上一篇
Block 推出 Managerbot — Square 有了一个 AI 店长
下一篇 →
MolmoWeb:AI2 开源了一个用眼睛操作网页的 Agent
← 返回所有文章

评论

加载中...
>_