dflash:用块扩散做 speculative decoding
z-lab 这周开源了 dflash。GitHub Trending 一天 388 星,总共 3800 星。核心思路是:用一个轻量级的块扩散模型当 speculative decoding 的草稿模型,一次并行起草一整块 15-16 个 token,而不是一次一个。
支持的后端:vLLM、SGLang、Transformers、MLX。支持 15+ 目标模型,Qwen、Gemma-4、Llama 都有。最大的新闻是 vLLM v0.20.1+ 把 dflash 收进了原生支持——vLLM 是开源大模型推理的事实生产线,dflash 现在是里面的一等草稿架构。
Speculative decoding 这两年一直是推理加速的主线故事。瓶颈一直在草稿模型:太小了接受率掉得厉害,太大了草稿本身就慢。块扩散瞄准的是一个不同的工作点——扩散可以一次前向传播并行起草一整块,绕开了自回归草稿模型的"深度 vs 质量"那个 tradeoff。
对 agent 这种工作负载来说,这件事比对聊天更重要。agent 在 tool call 之间做大量的短生成。按 token 摊的推理成本是 agent 云账单的大头。speculative decoding 加速直接减 agent 单任务成本。
往大了看一层:agent 工作负载的推理加速正在变成它自己的子学科。Eagle、Medusa、现在块扩散,都在收敛到同一个洞察——agentic 生成在结构上跟 chat 生成不一样,最优的草稿架构也不一样。盯着接下来 90 天 Anthropic 和 OpenAI 会不会发或者收一个类似的工作。来源:https://github.com/z-lab/dflash
← 返回所有文章
支持的后端:vLLM、SGLang、Transformers、MLX。支持 15+ 目标模型,Qwen、Gemma-4、Llama 都有。最大的新闻是 vLLM v0.20.1+ 把 dflash 收进了原生支持——vLLM 是开源大模型推理的事实生产线,dflash 现在是里面的一等草稿架构。
Speculative decoding 这两年一直是推理加速的主线故事。瓶颈一直在草稿模型:太小了接受率掉得厉害,太大了草稿本身就慢。块扩散瞄准的是一个不同的工作点——扩散可以一次前向传播并行起草一整块,绕开了自回归草稿模型的"深度 vs 质量"那个 tradeoff。
对 agent 这种工作负载来说,这件事比对聊天更重要。agent 在 tool call 之间做大量的短生成。按 token 摊的推理成本是 agent 云账单的大头。speculative decoding 加速直接减 agent 单任务成本。
往大了看一层:agent 工作负载的推理加速正在变成它自己的子学科。Eagle、Medusa、现在块扩散,都在收敛到同一个洞察——agentic 生成在结构上跟 chat 生成不一样,最优的草稿架构也不一样。盯着接下来 90 天 Anthropic 和 OpenAI 会不会发或者收一个类似的工作。来源:https://github.com/z-lab/dflash
评论