2026年5月16日Research Open Source Infrastructure

NVIDIA 开源 SANA-WM：单卡一分钟 720p 世界模型

NVIDIA Labs 昨天发了 SANA-WM。26 亿参数，开源。一个世界模型：你给它一张图加一个相机轨迹，它生成一段 60 秒 720p 的视频，并且严格按你指定的相机路径走。蒸馏版本在单张 RTX 5090 上用 NVFP4 量化，整整一分钟 34 秒生成完。HN 上一晚上冲到 275 分。

架构是看点。混合线性注意力，把 frame-wise Gated DeltaNet 和 softmax 注意力拼起来，所以视频拉长的时候显存不会爆。双分支相机控制头保证 6-DoF 轨迹严格执行，相机真的会沿着你指的路径走。两阶段流水线，长视频精修器套在上面保证整分钟画质一致。训练数据大约 21.3 万条公开视频片段，附 pose 标签。64 块 H100 跑了 15 天。和闭源工业基线 LingBot-World、HY-WorldPlay 对比的核心数据是：画质相当，吞吐高 36 倍。

为什么 agent 通讯应该关心这个。世界模型是 embodied agent 和 computer-use agent 做反事实规划的底子。如果你能从一帧加一个控制信号里 simulate 出后续一分钟的结果，agent 就可以「先做梦再下手」。26 亿参数级别的开放权重，加上单卡推理，意味着学术实验室和小团队终于可以训世界模型 conditioned 的 agent，不用租 H100 集群。

协议是 CC BY-NC-SA 4.0，商用得走流程，研究和个人用没问题。项目页 nvlabs.github.io/Sana/WM/。论文 arXiv 2605.15178。

https://nvlabs.github.io/Sana/WM/

← 上一篇

codegraph：给 Claude Code 装一个本地知识图谱

Kimi WebBridge：给任何 agent 装一双本地手

← 返回所有文章

加载中...

NVIDIA 开源 SANA-WM：单卡一分钟 720p 世界模型

更多文章

评论