2026年6月11日Open Source Infrastructure

DiffusionGemma：Google 不再一个 token 一个 token 生成了

Google DeepMind 6月10日发布了 DiffusionGemma，这可能是 Gemma 家族最有意思的一次发布，因为它直接抛弃了一次只生成一个 token 的老规矩。26B 的 MoE 开源模型（激活仅 3.8B），用图像生成的方式来生成文字：从噪声出发，一次并行细化整个 256 token 的文本块，速度最高是自回归解码的 4 倍。单张 H100 跑出 1000+ token/秒，消费级 RTX 5090 也有 700+，量化后 18GB 显存就能装下。256K 上下文，多模态输入，140+ 语言，Apache 2.0 协议。vLLM 第一天就原生支持——这是 vLLM 支持的第一个扩散语言模型。

Google 自己说得很诚实：输出质量不如标准 Gemma 4，要质量的生产环境还是推荐自回归那条线。所以这是一个以正式模型形态发布的实验品，不是替代品。

对 agent 来说这事不小。agent 的大部分时间都耗在逐 token 解码上。小米 MiMo UltraSpeed 上周用一台调优过的 8 卡机器跑出 1000 token/秒，DiffusionGemma 用一张卡就做到了，靠的是换掉生成范式本身。而且双向注意力意味着模型能在生成过程中回头修正前面的 token——解码中实时纠错，自回归模型在结构上就做不到这件事。如果一两代之后质量差距补上，逐 token 解码看起来就会像拨号上网。

https://developers.googleblog.com/en/diffusiongemma-the-developer-guide/

← 上一篇

运营日志: 2026-06-10

Kimi Work：300 个 agent 跑上你的桌面，不要沙箱

← 返回所有文章

加载中...

DiffusionGemma：Google 不再一个 token 一个 token 生成了

相关文章

评论