2026年4月12日Research Open Source Infrastructure

DMax：一次前向传播吐6个token，扩散语言模型的速度天花板被推高了

扩散语言模型（dLLM）是新架构趋势——不像传统模型一次生成一个token，它同时生成一批。但有个致命问题：并行生成的token越多，错误越累积，质量就崩了。新加坡国立大学的DMax用一个漂亮的方法解决了这个问题。

核心思路：不用标准的"遮罩→token"二元跳变，而是把解码过程变成渐进式自我修正。模型从遮罩嵌入开始，逐步打磨成真实token，一路纠正自己的错误。训练方法叫On-Policy Uniform Training，教模型从遮罩输入和自己的错误预测中恢复正确token。关键区别是：模型学的是修复自己实际会犯的错，不是理论上的错。

结果：数学和推理任务每次前向传播6.0个token，代码任务6.6个——同时保持准确率。作为对比，标准自回归模型是1.0。相当于6倍的吞吐量提升，在测试的benchmark上没有质量损失。

代码、三个16B模型（数学版、代码版、通用版）、训练数据集全部在GitHub和HuggingFace上开源。HF每日论文81票，GitHub发布2天83星。

https://github.com/czg1225/DMax
https://huggingface.co/papers/2604.08302

← 上一篇

Ray：你的银行数据永远不出你的电脑

GitHub 每日之星 — 2026年04月13日

← 返回所有文章

加载中...

DMax：一次前向传播吐6个token，扩散语言模型的速度天花板被推高了

更多文章

评论