扩散语言模型(dLLM)崛起:自回归范式正在被改写

2026-06-18 · 每日调研 · 覆盖 arXiv cs.AI / cs.CL 最新论文

为什么重要:过去一周 arXiv 同时出现两篇扩散语言模型(Diffusion LM)的里程碑工作——Sumi(7B Uniform Diffusion LM 从零预训练 1.5T tokens)和 DreamReasoner-8B(首个开源 Block Diffusion 推理模型),加上蚂蚁集团去年底发布的 LLaDA2.0 100B——三件事指向同一个信号:自回归(AR)不再是 LLM 唯一答案。扩散语言模型在并行解码、双向推理、可控生成上的优势正在从论文走向可复现的 7B/100B 级别基线。

本周三篇论文一句话总结:

核心论文解读

① Sumi:开源 7B Uniform Diffusion LM from Scratch

作者:Mengyu Ye, Keito Kudo, Wataru Ikeda, Ryosuke Matsuda, Keisuke Sakaguchi, Jun Suzuki(东北大学/ Tohoku University) · arXiv:2606.19005 · 7B 1.5T tokens 全开源

做了什么:在 UDLM(Uniform Diffusion Language Model)这条线路上,第一次同时满足"大参数 + 大 token 预算"两个条件。完整开源了 7B 模型权重、中间 checkpoint、训练配方、公开数据混合配比。

关键技术点

局限性

② DreamReasoner-8B:Block Diffusion 推理模型的训练技巧

作者:Zirui Wu, Lin Zheng, Jiacheng Ye, Shansan Gong, Xueliang Zhao, Yansong Feng, Wei Bi, Lingpeng Kong(北大/字节/DreamLM 团队) · arXiv:2606.19257 · Block Diffusion 长 CoT 开源代码+权重

做了什么:把 Block Diffusion LM(BDLM)从短文本生成推到长链式思考(long-CoT)推理场景,系统研究 block size 对推理能力的影响。

关键技术点

局限性

③ LLaDA2.0:100B MoE 的离散扩散 LM(背景对照)

发布方:蚂蚁技术研究院 · 2025-12-12 · 新闻 / 解读 · 100B MoE dLLM

做了什么:开源 16B(mini)和 100B(flash)两个 MoE 架构的离散扩散 LM,首次把 dLLM 推到 100B 量级。同时发布 LLaDA2.0-Uni,把文本+视觉统一在 dLLM 框架下。

为什么重要

关键概念对比

范式 代表模型 核心机制 主要优势 主要劣势
Autoregressive (AR) GPT-4o, Qwen3, DeepSeek-V4 逐 token 从左到右生成 训练稳定 / KV cache 友好 / 生态成熟 串行解码 / 单向上下文
Masked Diffusion (MDLM) MDLM, SEDD 随机掩码 + 迭代去噪 并行解码 / 双向 仅掩码 token 可更新 / 采样步数多
Block Diffusion (BDLM) BD3-LM, DreamReasoner-8B 块内并行去噪 + 块间自回归 折中 AR 稳定与并行加速 block size 敏感 / 训练难
Uniform Diffusion (UDLM) Sumi, LLaDA2.0 任意 token 可在任意 step 更新 最灵活 / 双向最强 训练成本高 / 采样慢 / 配方不成熟

技术原理:dLLM 怎么工作

用最小化公式解释 dLLM 与 AR 的本质区别:

AR 模型(如 GPT):

P(x₁, x₂, ..., x_T) = ∏ P(x_i | x₁, ..., x_{i-1})  // 串行条件概率

Masked Diffusion(如 MDLM):

前向:随机把 token 替换为 [MASK]
逆向:模型并行预测所有 [MASK] 位置
P_θ(x_{0:T}) = ∏_t p_θ(x_{t-1} | x_t)  // 离散扩散

Block Diffusion(DreamReasoner 用):

把序列切成 block
块内:并行扩散去噪
块间:自回归(block 1 → block 2 → ...)
→ 平衡并行度与稳定性

Uniform Diffusion(Sumi 用):

任意 step 任意 token 都可被重新更新
不是掩码-恢复,而是任意位置任意时刻都能调整
→ 理论上最灵活,训练代价也最大
Block-size Curriculum 的核心洞察(DreamReasoner):训练时 block 太大 → 模型在去噪时一次要预测整个粗粒度段落,推理链断了;block 太小 → 训练效率低。Curriculum 策略:先小 block(细粒度学推理)→ 再大 block(粗粒度学生成),最终跨 block size 都能推理。

相关工作

局限性与争议

别被数字冲昏头:dLLM 还有三个根本问题没解决

我的判断

这是一个"范式迁徙"信号,但还没到拐点。

三件事在 6 个月内连续发生——LLaDA2.0 100B(Sumi 论文的对照背景)→ Sumi 7B 全开源(本周)→ DreamReasoner-8B 推理落地(本周)——意味着 dLLM 已经从"小规模实验"进入"工业级基线竞争"阶段。未来 6-12 个月最值得跟踪的指标

对 JC 的实际意义

— 完 —