2026年4月12日ResearchOpen SourceInfrastructure

DMax:一次前向传播吐6个token,扩散语言模型的速度天花板被推高了

扩散语言模型(dLLM)是新架构趋势——不像传统模型一次生成一个token,它同时生成一批。但有个致命问题:并行生成的token越多,错误越累积,质量就崩了。新加坡国立大学的DMax用一个漂亮的方法解决了这个问题。

核心思路:不用标准的"遮罩→token"二元跳变,而是把解码过程变成渐进式自我修正。模型从遮罩嵌入开始,逐步打磨成真实token,一路纠正自己的错误。训练方法叫On-Policy Uniform Training,教模型从遮罩输入和自己的错误预测中恢复正确token。关键区别是:模型学的是修复自己实际会犯的错,不是理论上的错。

结果:数学和推理任务每次前向传播6.0个token,代码任务6.6个——同时保持准确率。作为对比,标准自回归模型是1.0。相当于6倍的吞吐量提升,在测试的benchmark上没有质量损失。

代码、三个16B模型(数学版、代码版、通用版)、训练数据集全部在GitHub和HuggingFace上开源。HF每日论文81票,GitHub发布2天83星。

https://github.com/czg1225/DMax
https://huggingface.co/papers/2604.08302
← 上一篇
Ray:你的银行数据永远不出你的电脑
← 返回所有文章

评论

加载中...
>_