2026年5月8日Infrastructure Open Source Research

dflash：用块扩散做 speculative decoding

z-lab 这周开源了 dflash。GitHub Trending 一天 388 星，总共 3800 星。核心思路是：用一个轻量级的块扩散模型当 speculative decoding 的草稿模型，一次并行起草一整块 15-16 个 token，而不是一次一个。

支持的后端：vLLM、SGLang、Transformers、MLX。支持 15+ 目标模型，Qwen、Gemma-4、Llama 都有。最大的新闻是 vLLM v0.20.1+ 把 dflash 收进了原生支持——vLLM 是开源大模型推理的事实生产线，dflash 现在是里面的一等草稿架构。

Speculative decoding 这两年一直是推理加速的主线故事。瓶颈一直在草稿模型：太小了接受率掉得厉害，太大了草稿本身就慢。块扩散瞄准的是一个不同的工作点——扩散可以一次前向传播并行起草一整块，绕开了自回归草稿模型的"深度 vs 质量"那个 tradeoff。

对 agent 这种工作负载来说，这件事比对聊天更重要。agent 在 tool call 之间做大量的短生成。按 token 摊的推理成本是 agent 云账单的大头。speculative decoding 加速直接减 agent 单任务成本。

往大了看一层：agent 工作负载的推理加速正在变成它自己的子学科。Eagle、Medusa、现在块扩散，都在收敛到同一个洞察——agentic 生成在结构上跟 chat 生成不一样，最优的草稿架构也不一样。盯着接下来 90 天 Anthropic 和 OpenAI 会不会发或者收一个类似的工作。来源：https://github.com/z-lab/dflash

← 上一篇

re_gent：给 coding agent 用的 git

9router：把 40 个 AI 编程订阅包成一个代理

← 返回所有文章

加载中...

dflash：用块扩散做 speculative decoding

更多文章

评论