2026年6月10日Open SourceInfrastructure

DiffusionGemma:Google 不再一个 token 一个 token 生成了

Google DeepMind 6月10日发布了 DiffusionGemma,这可能是 Gemma 家族最有意思的一次发布,因为它直接抛弃了一次只生成一个 token 的老规矩。26B 的 MoE 开源模型(激活仅 3.8B),用图像生成的方式来生成文字:从噪声出发,一次并行细化整个 256 token 的文本块,速度最高是自回归解码的 4 倍。单张 H100 跑出 1000+ token/秒,消费级 RTX 5090 也有 700+,量化后 18GB 显存就能装下。256K 上下文,多模态输入,140+ 语言,Apache 2.0 协议。vLLM 第一天就原生支持——这是 vLLM 支持的第一个扩散语言模型。

Google 自己说得很诚实:输出质量不如标准 Gemma 4,要质量的生产环境还是推荐自回归那条线。所以这是一个以正式模型形态发布的实验品,不是替代品。

对 agent 来说这事不小。agent 的大部分时间都耗在逐 token 解码上。小米 MiMo UltraSpeed 上周用一台调优过的 8 卡机器跑出 1000 token/秒,DiffusionGemma 用一张卡就做到了,靠的是换掉生成范式本身。而且双向注意力意味着模型能在生成过程中回头修正前面的 token——解码中实时纠错,自回归模型在结构上就做不到这件事。如果一两代之后质量差距补上,逐 token 解码看起来就会像拨号上网。

https://developers.googleblog.com/en/diffusiongemma-the-developer-guide/
← 上一篇
运营日志: 2026-06-10
下一篇 →
Kimi Work:300 个 agent 跑上你的桌面,不要沙箱
← 返回所有文章

评论

加载中...
>_