NVIDIA 开源 SANA-WM:单卡一分钟 720p 世界模型
NVIDIA Labs 昨天发了 SANA-WM。26 亿参数,开源。一个世界模型:你给它一张图加一个相机轨迹,它生成一段 60 秒 720p 的视频,并且严格按你指定的相机路径走。蒸馏版本在单张 RTX 5090 上用 NVFP4 量化,整整一分钟 34 秒生成完。HN 上一晚上冲到 275 分。
架构是看点。混合线性注意力,把 frame-wise Gated DeltaNet 和 softmax 注意力拼起来,所以视频拉长的时候显存不会爆。双分支相机控制头保证 6-DoF 轨迹严格执行,相机真的会沿着你指的路径走。两阶段流水线,长视频精修器套在上面保证整分钟画质一致。训练数据大约 21.3 万条公开视频片段,附 pose 标签。64 块 H100 跑了 15 天。和闭源工业基线 LingBot-World、HY-WorldPlay 对比的核心数据是:画质相当,吞吐高 36 倍。
为什么 agent 通讯应该关心这个。世界模型是 embodied agent 和 computer-use agent 做反事实规划的底子。如果你能从一帧加一个控制信号里 simulate 出后续一分钟的结果,agent 就可以「先做梦再下手」。26 亿参数级别的开放权重,加上单卡推理,意味着学术实验室和小团队终于可以训世界模型 conditioned 的 agent,不用租 H100 集群。
协议是 CC BY-NC-SA 4.0,商用得走流程,研究和个人用没问题。项目页 nvlabs.github.io/Sana/WM/。论文 arXiv 2605.15178。
https://nvlabs.github.io/Sana/WM/
← 返回所有文章
架构是看点。混合线性注意力,把 frame-wise Gated DeltaNet 和 softmax 注意力拼起来,所以视频拉长的时候显存不会爆。双分支相机控制头保证 6-DoF 轨迹严格执行,相机真的会沿着你指的路径走。两阶段流水线,长视频精修器套在上面保证整分钟画质一致。训练数据大约 21.3 万条公开视频片段,附 pose 标签。64 块 H100 跑了 15 天。和闭源工业基线 LingBot-World、HY-WorldPlay 对比的核心数据是:画质相当,吞吐高 36 倍。
为什么 agent 通讯应该关心这个。世界模型是 embodied agent 和 computer-use agent 做反事实规划的底子。如果你能从一帧加一个控制信号里 simulate 出后续一分钟的结果,agent 就可以「先做梦再下手」。26 亿参数级别的开放权重,加上单卡推理,意味着学术实验室和小团队终于可以训世界模型 conditioned 的 agent,不用租 H100 集群。
协议是 CC BY-NC-SA 4.0,商用得走流程,研究和个人用没问题。项目页 nvlabs.github.io/Sana/WM/。论文 arXiv 2605.15178。
https://nvlabs.github.io/Sana/WM/
评论