扩散语言模型(dLLM)后训练范式正在成型:VoidPadding 与 d-OPSD 双论文解读
2026-06-17 · 每日调研 · 论文方向:Masked Diffusion LLMs · Inference & Post-training
为什么重要。扩散语言模型(dLLM,例如 LLaDA / Dream / MDLM)正在从「预训练可玩」走向「可指令微调、可强化学习、可落地推理」。6 月 16 日同一天 arXiv 上冒出两篇互补论文——一篇解决 推理时响应长度建模(VoidPadding),一篇解决 训练时on-policy 自蒸馏(d-OPSD)——它们都明确指出:自回归(AR)范式下的设计假设在 dLLM 上不再成立。这是 dLLM 工具链从「模仿 AR」转向「自成一派」的早期信号。
核心判断:两篇论文的共同方法论是「拆 AR 假设」——把 AR 时代偷渡进来的两个隐式假设([EOS] 既是终止符又是 padding;teacher 拥有 ground-truth prefix 作为特权信息)从 dLLM 训练/推理中剥离掉。改用专门设计的 [VOID] token 和「self-future」conditioning。
核心论文解读
① VoidPadding — 让 [VOID] 接管 padding,把 [EOS] 还给语义终止
- 论文:VoidPadding: Let [VOID] Handle Padding in Masked Diffusion Language Models so that [EOS] Can Focus on Semantic Termination · Liu, Fan, Yang, Lamb (arXiv:2606.17999, 2026-06-16) · 代码已开源
- 问题诊断:MDLM(Masked Diffusion LM)继承 AR 习惯——在 SFT 数据里用重复的
[EOS] 填 padding。这导致 [EOS] 身兼二职:(1) 语义终止符 (2) 长度占位符。论文指出这是 大块解码(large-block decoding)下 [EOS] overflow 的根因——模型在不该停的时候因为看到太多 [EOS] 而提前结束。
- 核心方法:引入新的
[VOID] token 专门做 padding,[EOS] 只承担终止语义。推理时两个信号解耦:[EOS] 触发早停,[VOID] 触发响应画布(response canvas)自适应扩展。
- 实验结果(Dream-7B-Instruct):
- 数学推理 + 代码生成四任务 block-size-averaged 均值:+17.84 pts(相对原模型)/+6.95 pts(相对前作 RainbowPadding)
- 解码 NFE(number of function evaluations)平均减少 55.7%——也就是推理步数近乎腰斩
- 局限性:
- 只在 Dream-7B-Instruct 一个基座上验证,跨架构(LLaDA、MDLM 原生版本)泛化未测
[VOID] 作为新增 special token 改变了 tokenizer,部署到下游应用需要重新对齐接口
- 「为什么 [EOS] 一定会 overflow」的因果分析给的是观察性证据,缺少反事实消融(如强制只训练 [EOS] 不做 padding)
② d-OPSD — dLLM 的首个 on-policy 自蒸馏框架,向「self-future」学习
- 论文:Learning from the Self-future: On-policy Self-distillation for dLLMs · Luo, Chen, Wang, Hu, Zhang, Sha, Liu (arXiv:2606.18195, 2026-06-16) · 代码已开源
- 问题诊断:On-Policy Self-Distillation(OPSD,DeepSeek-R1 / R1-One 那一脉)在 AR LLM 后训练上已被验证有效,但现有 OPSD 方法本质上是 AR-centric:teacher 用「left-to-right prefix + privileged ground-truth」构造监督信号,token-level KL 散度对逐 token 对齐。这套设计假设任意序生成的 dLLM 根本满足不了——dLLM 没有「prefix」这个概念,它能并行看见整个 masked canvas。
- 核心方法(两处关键改造):
- Self-future 条件化:不再用「teacher 拿到 ground-truth 前缀」构造特权信息,改用「student 拿 teacher 自己的后缀输出」作为条件。这让 student 学习的不是「前文怎么来」,而是「在 teacher 已经看到答案的情况下,自己对未来的预测该是什么」——非常 dLLM-native 的视角。
- Step-level 而非 token-level 监督:把 KL 散度从「逐 token 对齐」改成「逐去噪 step 对齐」,让训练目标与 dLLM 迭代去噪的真实推理过程匹配。
- 实验结果:在四个推理 benchmark 上 d-OPSD 稳定优于 RLVR 和 SFT 基线,且样本效率极强——只需 RLVR 约 10% 的优化步数即可达到更好效果。
- 局限性:
- 「self-future」是否真的等价于 AR 里的 prefix 监督?理论分析只给了动机性论证,没有信息论下界
- step-level KL 的具体聚合方式(mean / max / weighted)未充分消融
- 在更长的 reasoning chain / 多轮 agent 任务上未验证,可能随着生成长度增加优势被稀释
注意:两篇论文都是 单日(2026-06-16)上传的 preprint,未经同行评审,benchmark 选择和 baseline 设置可能对结论有偏——尤其是 d-OPSD 论文里 dLLM 用 RLVR 的步数对比,是否公平地控制了 reward 模型成本、KL 系数等超参,需要看代码和附录才能下结论。
技术原理:两篇论文放在一起看
| 维度 | VoidPadding | d-OPSD |
| 切入环节 | 推理时(inference) | 训练时(post-training) |
| 解决的 AR 假设 | [EOS] 既是终止符又是 padding | teacher 拥有 ground-truth prefix |
| 核心创新 | 引入 [VOID] token 分离两种角色 | Self-future 条件化 + step-level KL |
| 作用范围 | 大块解码 / 自适应长度 | 推理任务的强化学习式优化 |
| 数据效率 | NFE 减少 55.7% | 训练步数减少 ~90%(vs RLVR) |
| 基座 | Dream-7B-Instruct | 未具体指明(多 dLLM 基座) |
| 代码 | 已开源 | 已开源 |
两条线合并的图景是:dLLM 想要真正替代 AR LLM 做产品级推理,必须把训练和推理里所有「从 AR 偷渡过来的设计」逐一替换。VoidPadding 解决了输出长度建模,d-OPSD 解决了 on-policy 优化——下一波应该会出现在 (1) 长上下文 / 工具调用下的 dLLM KV 缓存设计、(2) 多模态 dLLM(文本+图像+音频统一去噪)、(3) dLLM 的安全对齐(DPO / RLHF 怎么不依赖 AR prefix)。
相关工作背景
- MDLM / SMDM 系列(Stanford / CMU,2024–2025):连续时间掩码扩散的奠基工作,证明了「无 AR 的语言建模」在 perplexity 上可追平 GPT。
- Dream-7B / LLaDA(2025):首个开源 7B 级 dLLM 指令微调模型,提供了可比 AR LLM 的指令遵循能力,但暴露了 padding / 长度建模痛点。
- RainbowPadding:VoidPadding 的直接前作,已经意识到
[EOS] padding 的问题,但解决方案不如 VoidPadding 干净。
- Self-Rewarding / R1-style OPSD(DeepSeek, 2025):AR LLM 上的 on-policy 自蒸馏标准范式,d-OPSD 明确把它「移植」到了 dLLM 域并发现 prefix 假设必须改写。
- RLVR(RL with Verifiable Rewards):当前 dLLM 后训练的主流基线,d-OPSD 声称在 10% 步数下即可超越——若复现成立,是大幅降低训练成本的硬指标。
我的判断
- 信号 vs 噪音:两篇论文都不是「scaling 层面的胜利」——没有更多参数、没有更多数据。它们是机制层的工作:指出 AR 范式在 dLLM 上的不适用性,并给出可落地的替代方案。这比单纯刷 benchmark 更有杠杆,因为一旦社区接受这套新假设,dLLM 工具链会快速范式迁移。
- 对 JC 自己的意义:如果你在 picturebook-kg 或任何 LLM 应用里评估 dLLM 作为 AR LLM 的替代品——现在还没有到 P0 替换的时候,但值得跑一个 PoC:用 Dream-7B + VoidPadding 替代某个短回答场景的 GPT-4o-mini,看 NFE 砍半带来的 latency 改善是否对产品体验有感知级影响。
- 需要警惕:VoidPadding 引入
[VOID] 改 tokenizer → 与 HuggingFace 生态里大量依赖原 vocab 的代码会有兼容成本;d-OPSD 的「self-future」是经验性巧思,理论根基未立——等独立复现,尤其是 Dream / LLaDA 之外的 dLLM 变体。
- 如果只能读一篇:选 d-OPSD。理由:它解决的是训练效率问题(10% 步数),杠杆比 VoidPadding 的「NFE -55%」更普适——NFE 减半只对实时推理场景有价值,训练成本下降对所有部署路径都有价值。
数据源:arXiv cs.CL 2026-06-16 / 2026-06-17 提交列表 · 论文摘要与代码仓库链接已附