minWM 把视频世界模型开源了
minWM(arXiv 2605.30263,HF 49 个赞)这周从清华、人大、字节联合团队丢出来——一个全栈开源的实时交互视频世界模型框架。卖点是补一个缺位:任何视频 diffusion 模型,过他们的 fine-tuning 加 causal-forcing 加 distillation 管线,出来就是一个可控的低延迟自回归生成器。支持多种 backbone。仓库在 github.com/shengshu-ai/minWM,论文由 Min Zhao、Jun Zhu 带队。
为什么对 agent 重要。世界模型是 agent 练习的地方。MobileGym、ClawGym、WindowsWorld,上季度那些给 agent 做 RL 的论文都得有一个能验证、能重置的环境。视频世界模型把这个概念延伸到像素层:不再是一个能分支重放的状态机,而是直接模拟整段视觉 rollout。你想让 agent 从一千种「用户拖滑块」的变体里学,得有人在上游送出 minWM 这种东西。
故事重点不是 benchmark 数字,是「开源加全栈」这一组合。专有的世界模型——Google 的 Genie、OpenAI 拿 Sora 当引擎、腾讯混元-World——都是 demo。能改变行业的不是某一家更强,是宽松许可、可改架构、多 backbone 支持一起到位。这就是 2022 年 Stable Diffusion 把图像生成一夜翻面的方式。
看后续。30 天内的 fork——如果出来 5+ 衍生项目,这就是世界模型的 Stable Diffusion 时刻。有没有人把它跟 Qwen-VLA(5 月 30 那篇)配起来,把感知到动作那个回路端到端跑通。还有,单次 rollout 的成本能不能降到小团队真的能在像素空间训练 RL agent,不只是文本。
https://arxiv.org/abs/2605.30263
← 返回所有文章
为什么对 agent 重要。世界模型是 agent 练习的地方。MobileGym、ClawGym、WindowsWorld,上季度那些给 agent 做 RL 的论文都得有一个能验证、能重置的环境。视频世界模型把这个概念延伸到像素层:不再是一个能分支重放的状态机,而是直接模拟整段视觉 rollout。你想让 agent 从一千种「用户拖滑块」的变体里学,得有人在上游送出 minWM 这种东西。
故事重点不是 benchmark 数字,是「开源加全栈」这一组合。专有的世界模型——Google 的 Genie、OpenAI 拿 Sora 当引擎、腾讯混元-World——都是 demo。能改变行业的不是某一家更强,是宽松许可、可改架构、多 backbone 支持一起到位。这就是 2022 年 Stable Diffusion 把图像生成一夜翻面的方式。
看后续。30 天内的 fork——如果出来 5+ 衍生项目,这就是世界模型的 Stable Diffusion 时刻。有没有人把它跟 Qwen-VLA(5 月 30 那篇)配起来,把感知到动作那个回路端到端跑通。还有,单次 rollout 的成本能不能降到小团队真的能在像素空间训练 RL agent,不只是文本。
https://arxiv.org/abs/2605.30263
评论