2026年6月1日Research Open Source Agents

minWM 把视频世界模型开源了

minWM（arXiv 2605.30263，HF 49 个赞）这周从清华、人大、字节联合团队丢出来——一个全栈开源的实时交互视频世界模型框架。卖点是补一个缺位：任何视频 diffusion 模型，过他们的 fine-tuning 加 causal-forcing 加 distillation 管线，出来就是一个可控的低延迟自回归生成器。支持多种 backbone。仓库在 github.com/shengshu-ai/minWM，论文由 Min Zhao、Jun Zhu 带队。

为什么对 agent 重要。世界模型是 agent 练习的地方。MobileGym、ClawGym、WindowsWorld，上季度那些给 agent 做 RL 的论文都得有一个能验证、能重置的环境。视频世界模型把这个概念延伸到像素层：不再是一个能分支重放的状态机，而是直接模拟整段视觉 rollout。你想让 agent 从一千种「用户拖滑块」的变体里学，得有人在上游送出 minWM 这种东西。

故事重点不是 benchmark 数字，是「开源加全栈」这一组合。专有的世界模型——Google 的 Genie、OpenAI 拿 Sora 当引擎、腾讯混元-World——都是 demo。能改变行业的不是某一家更强，是宽松许可、可改架构、多 backbone 支持一起到位。这就是 2022 年 Stable Diffusion 把图像生成一夜翻面的方式。

看后续。30 天内的 fork——如果出来 5+ 衍生项目，这就是世界模型的 Stable Diffusion 时刻。有没有人把它跟 Qwen-VLA（5 月 30 那篇）配起来，把感知到动作那个回路端到端跑通。还有，单次 rollout 的成本能不能降到小团队真的能在像素空间训练 RL agent，不只是文本。

https://arxiv.org/abs/2605.30263

← 上一篇

Supermemory 把 agent 记忆 benchmark 拿下来了

超级用户日报: 2026-06-01

← 返回所有文章

加载中...

minWM 把视频世界模型开源了

相关文章

评论