扩散语言模型(dLLM)崛起:自回归范式正在被改写
2026-06-18 · 每日调研 · 覆盖 arXiv cs.AI / cs.CL 最新论文
为什么重要:过去一周 arXiv 同时出现两篇扩散语言模型(Diffusion LM)的里程碑工作——Sumi(7B Uniform Diffusion LM 从零预训练 1.5T tokens)和 DreamReasoner-8B(首个开源 Block Diffusion 推理模型),加上蚂蚁集团去年底发布的 LLaDA2.0 100B——三件事指向同一个信号:自回归(AR)不再是 LLM 唯一答案。扩散语言模型在并行解码、双向推理、可控生成上的优势正在从论文走向可复现的 7B/100B 级别基线。
本周三篇论文一句话总结:
- Sumi(7B UDLM):首次在 7B 规模、1.5T tokens 上从零训练 Uniform Diffusion LM,能力对标 Qwen3-8B 等开源 AR 模型。
- DreamReasoner-8B:Block Diffusion 路径上首个长 CoT 推理模型,揭示了 block size 训练的关键技巧,发布完整权重和代码。
- LLaDA2.0(蚂蚁 100B MoE):把离散扩散 LM 推到 100B 量级,验证大规模可扩展性。
核心论文解读
① Sumi:开源 7B Uniform Diffusion LM from Scratch
作者:Mengyu Ye, Keito Kudo, Wataru Ikeda, Ryosuke Matsuda, Keisuke Sakaguchi, Jun Suzuki(东北大学/ Tohoku University) · arXiv:2606.19005 · 7B 1.5T tokens 全开源
做了什么:在 UDLM(Uniform Diffusion Language Model)这条线路上,第一次同时满足"大参数 + 大 token 预算"两个条件。完整开源了 7B 模型权重、中间 checkpoint、训练配方、公开数据混合配比。
关键技术点:
- 任意 token 可在任意 step 更新——这是 Uniform Diffusion 与 Masked Diffusion(MDLM)的本质区别,理论上提供更灵活的双向生成能力。
- 知识/推理/代码 benchmark 接近同规模 AR,但常识类 benchmark 显著落后。作者自己点出原因:教育类数据权重过高。
- 完全开放训练数据配方——这点对社区意义很大,给了"如何从零预训练 dLLM"的可复现参考。
局限性:
- 7B 已经是 UDLM 第一次触达,但仍远小于 LLaDA2.0 的 100B,规模化曲线未完整画出。
- 采样速度仍是最大障碍——diffusion 多次迭代的去噪尚未达到 AR KV-cache 的工程效率。
- 数据混合对"常识"指标的负面影响,暴露出 dLLM 训练配方的不成熟。
② DreamReasoner-8B:Block Diffusion 推理模型的训练技巧
作者:Zirui Wu, Lin Zheng, Jiacheng Ye, Shansan Gong, Xueliang Zhao, Yansong Feng, Wei Bi, Lingpeng Kong(北大/字节/DreamLM 团队) · arXiv:2606.19257 · Block Diffusion 长 CoT 开源代码+权重
做了什么:把 Block Diffusion LM(BDLM)从短文本生成推到长链式思考(long-CoT)推理场景,系统研究 block size 对推理能力的影响。
关键技术点:
- Block-size 与推理能力的非单调关系:实验揭示一个反直觉现象——训练用大 block 反而推理效果差,小 block 才能保留有效推理。
- Block-Size Curriculum Learning:提出由细粒度到粗粒度的训练调度,弥合训练-推理粒度 gap。这是论文最核心的方法贡献。
- 跨 block size 泛化:训练好的模型在不同推理 block size 下都能保持稳定性能,工程友好。
- 在数学/代码 benchmark 上与 Qwen3-8B 持平——8B 规模首次对标头部开源 AR 推理模型。
局限性:
- Block size 与推理质量的具体机制尚未给出理论解释(empirical finding 居多)。
- 未在 ≥30B 规模验证,规模化不确定性存在。
- 采样步数 vs 推理质量 的 Pareto 曲线还不够陡——并行解码的优势在长 CoT 下被部分抵消。
③ LLaDA2.0:100B MoE 的离散扩散 LM(背景对照)
发布方:蚂蚁技术研究院 · 2025-12-12 · 新闻 / 解读 · 100B MoE dLLM
做了什么:开源 16B(mini)和 100B(flash)两个 MoE 架构的离散扩散 LM,首次把 dLLM 推到 100B 量级。同时发布 LLaDA2.0-Uni,把文本+视觉统一在 dLLM 框架下。
为什么重要:
- 验证 dLLM 可以用 MoE 扩展——打破了"扩散 LM 难扩展"的主流怀疑。
- 验证 dLLM 可以统一多模态——这是 AR 模型尚未原生解决的方向。
- 工业级团队下场,意味着 dLLM 已有真实工程价值,不再是学术 demo。
关键概念对比
| 范式 |
代表模型 |
核心机制 |
主要优势 |
主要劣势 |
| Autoregressive (AR) |
GPT-4o, Qwen3, DeepSeek-V4 |
逐 token 从左到右生成 |
训练稳定 / KV cache 友好 / 生态成熟 |
串行解码 / 单向上下文 |
| Masked Diffusion (MDLM) |
MDLM, SEDD |
随机掩码 + 迭代去噪 |
并行解码 / 双向 |
仅掩码 token 可更新 / 采样步数多 |
| Block Diffusion (BDLM) |
BD3-LM, DreamReasoner-8B |
块内并行去噪 + 块间自回归 |
折中 AR 稳定与并行加速 |
block size 敏感 / 训练难 |
| Uniform Diffusion (UDLM) |
Sumi, LLaDA2.0 |
任意 token 可在任意 step 更新 |
最灵活 / 双向最强 |
训练成本高 / 采样慢 / 配方不成熟 |
技术原理:dLLM 怎么工作
用最小化公式解释 dLLM 与 AR 的本质区别:
AR 模型(如 GPT):
P(x₁, x₂, ..., x_T) = ∏ P(x_i | x₁, ..., x_{i-1}) // 串行条件概率
Masked Diffusion(如 MDLM):
前向:随机把 token 替换为 [MASK]
逆向:模型并行预测所有 [MASK] 位置
P_θ(x_{0:T}) = ∏_t p_θ(x_{t-1} | x_t) // 离散扩散
Block Diffusion(DreamReasoner 用):
把序列切成 block
块内:并行扩散去噪
块间:自回归(block 1 → block 2 → ...)
→ 平衡并行度与稳定性
Uniform Diffusion(Sumi 用):
任意 step 任意 token 都可被重新更新
不是掩码-恢复,而是任意位置任意时刻都能调整
→ 理论上最灵活,训练代价也最大
Block-size Curriculum 的核心洞察(DreamReasoner):训练时 block 太大 → 模型在去噪时一次要预测整个粗粒度段落,推理链断了;block 太小 → 训练效率低。Curriculum 策略:先小 block(细粒度学推理)→ 再大 block(粗粒度学生成),最终跨 block size 都能推理。
相关工作
- MDLM (2024):Sahoo et al. 首次系统化 masked diffusion 训练目标,是 dLLM 的奠基性工作。
- BD3-LM (2024):Gao et al. 提出 block diffusion 框架,DreamReasoner 的直接前身。
- SEDD (2023):Lou et al. 提出 score entropy 的离散扩散训练目标。
- Large Language Diffusion Models (LLaDA, 2025-02):人大高瓴,8B masked diffusion 跑平 Llama 3 8B,dLLM 第一次在 LLM 规模上对标 AR。
- LLaDA2.0 (2025-12):蚂蚁 100B MoE 离散扩散,工业级入场。
- LLaDA2.0-Uni (2026-05):把 dLLM 推到多模态统一。
- GraphPO (arXiv:2606.18954):本周另一篇相关工作,把 RLVR 的 rollout 组织成 DAG 而非 chain/tree,间接提升推理效率——属于"dLLM 之外提升推理效率"的另一条路。
- Rubric-Conditioned Self-Distillation (arXiv:2606.19327):Yale + Rex Ying 团队,用结构化 rubric 替代单条 reference CoT 做蒸馏,本质是"推理训练的数据侧优化",与 dLLM 互补。
局限性与争议
别被数字冲昏头:dLLM 还有三个根本问题没解决
- 推理速度:diffusion 的多次去噪在 wall-clock 上仍慢于 AR + KV cache。论文 benchmark 通常用 "质量" 衡量,很少给"同质量下的延迟"对比。
- 训练稳定性:dLLM 训练对数据混合、超参更敏感。Sumi 自承教育类数据过重导致常识指标塌方。
- 生态不成熟:vLLM/TensorRT-LLM 等推理框架尚未原生支持 dLLM 的高效采样,工程化落后 AR 至少 1.5 年。
我的判断
这是一个"范式迁徙"信号,但还没到拐点。
三件事在 6 个月内连续发生——LLaDA2.0 100B(Sumi 论文的对照背景)→ Sumi 7B 全开源(本周)→ DreamReasoner-8B 推理落地(本周)——意味着 dLLM 已经从"小规模实验"进入"工业级基线竞争"阶段。未来 6-12 个月最值得跟踪的指标:
- 同质量下 dLLM vs AR 的 token/s 差距。这是 dLLM 能否真正替代 AR 的决定性指标。当前不乐观。
- 推理引擎的 dLLM 优化。vLLM / TensorRT-LLM / SGLang 哪天原生支持 dLLM 采样,拐点就到了。
- 多模态 dLLM 的进展。LLaDA2.0-Uni 是个开始,如果 dLLM 在视频/音频生成上证明比 AR 强(类似 Sora 在视频上的位置),迁移速度会加快。
- 训练成本曲线。dLLM 训 7B / 1.5T tokens 用了多少 GPU·小时?和同规模 AR 比是 1.5x 还是 3x?这决定了它能否被中小团队复现。
对 JC 的实际意义:
- 短期(<6 个月):继续用 AR 模型(Qwen3、DeepSeek-V4)做主力——生态成熟、成本可控。
- 中期(6-12 个月):如果做并行生成 / 双向编辑 / 长文档生成类任务,优先评估 DreamReasoner-8B 和 Sumi——这是两个真正可用的开源 dLLM。
- 长期(>12 个月):dLLM 在多模态、推理 agent、代码生成三个方向上有可能反超 AR。保持关注,不必现在押注。
— 完 —