扩散语言模型（dLLM）崛起：自回归范式正在被改写

2026-06-18 · 每日调研 · 覆盖 arXiv cs.AI / cs.CL 最新论文

为什么重要：过去一周 arXiv 同时出现两篇扩散语言模型（Diffusion LM）的里程碑工作——Sumi（7B Uniform Diffusion LM 从零预训练 1.5T tokens）和 DreamReasoner-8B（首个开源 Block Diffusion 推理模型），加上蚂蚁集团去年底发布的 LLaDA2.0 100B——三件事指向同一个信号：自回归（AR）不再是 LLM 唯一答案。扩散语言模型在并行解码、双向推理、可控生成上的优势正在从论文走向可复现的 7B/100B 级别基线。

本周三篇论文一句话总结：
Sumi（7B UDLM）：首次在 7B 规模、1.5T tokens 上从零训练 Uniform Diffusion LM，能力对标 Qwen3-8B 等开源 AR 模型。
DreamReasoner-8B：Block Diffusion 路径上首个长 CoT 推理模型，揭示了 block size 训练的关键技巧，发布完整权重和代码。
LLaDA2.0（蚂蚁 100B MoE）：把离散扩散 LM 推到 100B 量级，验证大规模可扩展性。

核心论文解读

① Sumi：开源 7B Uniform Diffusion LM from Scratch

作者：Mengyu Ye, Keito Kudo, Wataru Ikeda, Ryosuke Matsuda, Keisuke Sakaguchi, Jun Suzuki（东北大学/ Tohoku University） · arXiv:2606.19005 · 7B 1.5T tokens 全开源

做了什么：在 UDLM（Uniform Diffusion Language Model）这条线路上，第一次同时满足"大参数 + 大 token 预算"两个条件。完整开源了 7B 模型权重、中间 checkpoint、训练配方、公开数据混合配比。

关键技术点：

任意 token 可在任意 step 更新——这是 Uniform Diffusion 与 Masked Diffusion（MDLM）的本质区别，理论上提供更灵活的双向生成能力。
知识/推理/代码 benchmark 接近同规模 AR，但常识类 benchmark 显著落后。作者自己点出原因：教育类数据权重过高。
完全开放训练数据配方——这点对社区意义很大，给了"如何从零预训练 dLLM"的可复现参考。

局限性：

7B 已经是 UDLM 第一次触达，但仍远小于 LLaDA2.0 的 100B，规模化曲线未完整画出。
采样速度仍是最大障碍——diffusion 多次迭代的去噪尚未达到 AR KV-cache 的工程效率。
数据混合对"常识"指标的负面影响，暴露出 dLLM 训练配方的不成熟。

② DreamReasoner-8B：Block Diffusion 推理模型的训练技巧

作者：Zirui Wu, Lin Zheng, Jiacheng Ye, Shansan Gong, Xueliang Zhao, Yansong Feng, Wei Bi, Lingpeng Kong（北大/字节/DreamLM 团队） · arXiv:2606.19257 · Block Diffusion 长 CoT 开源代码+权重

做了什么：把 Block Diffusion LM（BDLM）从短文本生成推到长链式思考（long-CoT）推理场景，系统研究 block size 对推理能力的影响。

关键技术点：

Block-size 与推理能力的非单调关系：实验揭示一个反直觉现象——训练用大 block 反而推理效果差，小 block 才能保留有效推理。
Block-Size Curriculum Learning：提出由细粒度到粗粒度的训练调度，弥合训练-推理粒度 gap。这是论文最核心的方法贡献。
跨 block size 泛化：训练好的模型在不同推理 block size 下都能保持稳定性能，工程友好。
在数学/代码 benchmark 上与 Qwen3-8B 持平——8B 规模首次对标头部开源 AR 推理模型。

局限性：

Block size 与推理质量的具体机制尚未给出理论解释（empirical finding 居多）。
未在 ≥30B 规模验证，规模化不确定性存在。
采样步数 vs 推理质量的 Pareto 曲线还不够陡——并行解码的优势在长 CoT 下被部分抵消。

③ LLaDA2.0：100B MoE 的离散扩散 LM（背景对照）

发布方：蚂蚁技术研究院 · 2025-12-12 · 新闻 / 解读 · 100B MoE dLLM

做了什么：开源 16B（mini）和 100B（flash）两个 MoE 架构的离散扩散 LM，首次把 dLLM 推到 100B 量级。同时发布 LLaDA2.0-Uni，把文本+视觉统一在 dLLM 框架下。

为什么重要：

验证 dLLM 可以用 MoE 扩展——打破了"扩散 LM 难扩展"的主流怀疑。
验证 dLLM 可以统一多模态——这是 AR 模型尚未原生解决的方向。
工业级团队下场，意味着 dLLM 已有真实工程价值，不再是学术 demo。

关键概念对比

范式	代表模型	核心机制	主要优势	主要劣势
Autoregressive (AR)	GPT-4o, Qwen3, DeepSeek-V4	逐 token 从左到右生成	训练稳定 / KV cache 友好 / 生态成熟	串行解码 / 单向上下文
Masked Diffusion (MDLM)	MDLM, SEDD	随机掩码 + 迭代去噪	并行解码 / 双向	仅掩码 token 可更新 / 采样步数多
Block Diffusion (BDLM)	BD3-LM, DreamReasoner-8B	块内并行去噪 + 块间自回归	折中 AR 稳定与并行加速	block size 敏感 / 训练难
Uniform Diffusion (UDLM)	Sumi, LLaDA2.0	任意 token 可在任意 step 更新	最灵活 / 双向最强	训练成本高 / 采样慢 / 配方不成熟

技术原理：dLLM 怎么工作

用最小化公式解释 dLLM 与 AR 的本质区别：

AR 模型（如 GPT）：

P(x₁, x₂, ..., x_T) = ∏ P(x_i | x₁, ..., x_{i-1})  // 串行条件概率

Masked Diffusion（如 MDLM）：

前向：随机把 token 替换为 [MASK]
逆向：模型并行预测所有 [MASK] 位置
P_θ(x_{0:T}) = ∏_t p_θ(x_{t-1} | x_t)  // 离散扩散

Block Diffusion（DreamReasoner 用）：

把序列切成 block
块内：并行扩散去噪
块间：自回归（block 1 → block 2 → ...）
→ 平衡并行度与稳定性

Uniform Diffusion（Sumi 用）：

任意 step 任意 token 都可被重新更新
不是掩码-恢复，而是任意位置任意时刻都能调整
→ 理论上最灵活，训练代价也最大

Block-size Curriculum 的核心洞察（DreamReasoner）：训练时 block 太大 → 模型在去噪时一次要预测整个粗粒度段落，推理链断了；block 太小 → 训练效率低。Curriculum 策略：先小 block（细粒度学推理）→ 再大 block（粗粒度学生成），最终跨 block size 都能推理。

局限性与争议

别被数字冲昏头：dLLM 还有三个根本问题没解决

推理速度：diffusion 的多次去噪在 wall-clock 上仍慢于 AR + KV cache。论文 benchmark 通常用 "质量" 衡量，很少给"同质量下的延迟"对比。
训练稳定性：dLLM 训练对数据混合、超参更敏感。Sumi 自承教育类数据过重导致常识指标塌方。
生态不成熟：vLLM/TensorRT-LLM 等推理框架尚未原生支持 dLLM 的高效采样，工程化落后 AR 至少 1.5 年。

我的判断

这是一个"范式迁徙"信号，但还没到拐点。

三件事在 6 个月内连续发生——LLaDA2.0 100B（Sumi 论文的对照背景）→ Sumi 7B 全开源（本周）→ DreamReasoner-8B 推理落地（本周）——意味着 dLLM 已经从"小规模实验"进入"工业级基线竞争"阶段。未来 6-12 个月最值得跟踪的指标：

同质量下 dLLM vs AR 的 token/s 差距。这是 dLLM 能否真正替代 AR 的决定性指标。当前不乐观。
推理引擎的 dLLM 优化。vLLM / TensorRT-LLM / SGLang 哪天原生支持 dLLM 采样，拐点就到了。
多模态 dLLM 的进展。LLaDA2.0-Uni 是个开始，如果 dLLM 在视频/音频生成上证明比 AR 强（类似 Sora 在视频上的位置），迁移速度会加快。
训练成本曲线。dLLM 训 7B / 1.5T tokens 用了多少 GPU·小时？和同规模 AR 比是 1.5x 还是 3x？这决定了它能否被中小团队复现。

对 JC 的实际意义：
短期（<6 个月）：继续用 AR 模型（Qwen3、DeepSeek-V4）做主力——生态成熟、成本可控。
中期（6-12 个月）：如果做并行生成 / 双向编辑 / 长文档生成类任务，优先评估 DreamReasoner-8B 和 Sumi——这是两个真正可用的开源 dLLM。
长期（>12 个月）：dLLM 在多模态、推理 agent、代码生成三个方向上有可能反超 AR。保持关注，不必现在押注。

— 完 —