扩散语言模型（dLLM）后训练范式正在成型：VoidPadding 与 d-OPSD 双论文解读

2026-06-17 · 每日调研 · 论文方向：Masked Diffusion LLMs · Inference & Post-training

为什么重要。扩散语言模型（dLLM，例如 LLaDA / Dream / MDLM）正在从「预训练可玩」走向「可指令微调、可强化学习、可落地推理」。6 月 16 日同一天 arXiv 上冒出两篇互补论文——一篇解决 推理时响应长度建模（VoidPadding），一篇解决 训练时on-policy 自蒸馏（d-OPSD）——它们都明确指出：自回归（AR）范式下的设计假设在 dLLM 上不再成立。这是 dLLM 工具链从「模仿 AR」转向「自成一派」的早期信号。

核心判断：两篇论文的共同方法论是「拆 AR 假设」——把 AR 时代偷渡进来的两个隐式假设（[EOS] 既是终止符又是 padding；teacher 拥有 ground-truth prefix 作为特权信息）从 dLLM 训练/推理中剥离掉。改用专门设计的 [VOID] token 和「self-future」conditioning。

核心论文解读

① VoidPadding — 让 `[VOID]` 接管 padding，把 `[EOS]` 还给语义终止

论文：VoidPadding: Let [VOID] Handle Padding in Masked Diffusion Language Models so that [EOS] Can Focus on Semantic Termination · Liu, Fan, Yang, Lamb (arXiv:2606.17999, 2026-06-16) · 代码已开源
问题诊断：MDLM（Masked Diffusion LM）继承 AR 习惯——在 SFT 数据里用重复的 [EOS] 填 padding。这导致 [EOS] 身兼二职：(1) 语义终止符 (2) 长度占位符。论文指出这是 大块解码（large-block decoding）下 [EOS] overflow 的根因——模型在不该停的时候因为看到太多 [EOS] 而提前结束。
核心方法：引入新的 [VOID] token 专门做 padding，[EOS] 只承担终止语义。推理时两个信号解耦：[EOS] 触发早停，[VOID] 触发响应画布（response canvas）自适应扩展。
实验结果（Dream-7B-Instruct）：
- 数学推理 + 代码生成四任务 block-size-averaged 均值：+17.84 pts（相对原模型）/+6.95 pts（相对前作 RainbowPadding）
- 解码 NFE（number of function evaluations）平均减少 55.7%——也就是推理步数近乎腰斩
局限性：
- 只在 Dream-7B-Instruct 一个基座上验证，跨架构（LLaDA、MDLM 原生版本）泛化未测
- [VOID] 作为新增 special token 改变了 tokenizer，部署到下游应用需要重新对齐接口
- 「为什么 [EOS] 一定会 overflow」的因果分析给的是观察性证据，缺少反事实消融（如强制只训练 [EOS] 不做 padding）

② d-OPSD — dLLM 的首个 on-policy 自蒸馏框架，向「self-future」学习

论文：Learning from the Self-future: On-policy Self-distillation for dLLMs · Luo, Chen, Wang, Hu, Zhang, Sha, Liu (arXiv:2606.18195, 2026-06-16) · 代码已开源
问题诊断：On-Policy Self-Distillation（OPSD，DeepSeek-R1 / R1-One 那一脉）在 AR LLM 后训练上已被验证有效，但现有 OPSD 方法本质上是 AR-centric：teacher 用「left-to-right prefix + privileged ground-truth」构造监督信号，token-level KL 散度对逐 token 对齐。这套设计假设任意序生成的 dLLM 根本满足不了——dLLM 没有「prefix」这个概念，它能并行看见整个 masked canvas。
核心方法（两处关键改造）：
1. Self-future 条件化：不再用「teacher 拿到 ground-truth 前缀」构造特权信息，改用「student 拿 teacher 自己的后缀输出」作为条件。这让 student 学习的不是「前文怎么来」，而是「在 teacher 已经看到答案的情况下，自己对未来的预测该是什么」——非常 dLLM-native 的视角。
2. Step-level 而非 token-level 监督：把 KL 散度从「逐 token 对齐」改成「逐去噪 step 对齐」，让训练目标与 dLLM 迭代去噪的真实推理过程匹配。
实验结果：在四个推理 benchmark 上 d-OPSD 稳定优于 RLVR 和 SFT 基线，且样本效率极强——只需 RLVR 约 10% 的优化步数即可达到更好效果。
局限性：
- 「self-future」是否真的等价于 AR 里的 prefix 监督？理论分析只给了动机性论证，没有信息论下界
- step-level KL 的具体聚合方式（mean / max / weighted）未充分消融
- 在更长的 reasoning chain / 多轮 agent 任务上未验证，可能随着生成长度增加优势被稀释

注意：两篇论文都是 单日（2026-06-16）上传的 preprint，未经同行评审，benchmark 选择和 baseline 设置可能对结论有偏——尤其是 d-OPSD 论文里 dLLM 用 RLVR 的步数对比，是否公平地控制了 reward 模型成本、KL 系数等超参，需要看代码和附录才能下结论。

技术原理：两篇论文放在一起看

维度	VoidPadding	d-OPSD
切入环节	推理时（inference）	训练时（post-training）
解决的 AR 假设	`[EOS]` 既是终止符又是 padding	teacher 拥有 ground-truth prefix
核心创新	引入 `[VOID]` token 分离两种角色	Self-future 条件化 + step-level KL
作用范围	大块解码 / 自适应长度	推理任务的强化学习式优化
数据效率	NFE 减少 55.7%	训练步数减少 ~90%（vs RLVR）
基座	Dream-7B-Instruct	未具体指明（多 dLLM 基座）
代码	已开源	已开源

两条线合并的图景是：dLLM 想要真正替代 AR LLM 做产品级推理，必须把训练和推理里所有「从 AR 偷渡过来的设计」逐一替换。VoidPadding 解决了输出长度建模，d-OPSD 解决了 on-policy 优化——下一波应该会出现在 (1) 长上下文 / 工具调用下的 dLLM KV 缓存设计、(2) 多模态 dLLM（文本+图像+音频统一去噪）、(3) dLLM 的安全对齐（DPO / RLHF 怎么不依赖 AR prefix）。

我的判断

信号 vs 噪音：两篇论文都不是「scaling 层面的胜利」——没有更多参数、没有更多数据。它们是机制层的工作：指出 AR 范式在 dLLM 上的不适用性，并给出可落地的替代方案。这比单纯刷 benchmark 更有杠杆，因为一旦社区接受这套新假设，dLLM 工具链会快速范式迁移。
对 JC 自己的意义：如果你在 picturebook-kg 或任何 LLM 应用里评估 dLLM 作为 AR LLM 的替代品——现在还没有到 P0 替换的时候，但值得跑一个 PoC：用 Dream-7B + VoidPadding 替代某个短回答场景的 GPT-4o-mini，看 NFE 砍半带来的 latency 改善是否对产品体验有感知级影响。
需要警惕：VoidPadding 引入 [VOID] 改 tokenizer → 与 HuggingFace 生态里大量依赖原 vocab 的代码会有兼容成本；d-OPSD 的「self-future」是经验性巧思，理论根基未立——等独立复现，尤其是 Dream / LLaDA 之外的 dLLM 变体。
如果只能读一篇：选 d-OPSD。理由：它解决的是训练效率问题（10% 步数），杠杆比 VoidPadding 的「NFE -55%」更普适——NFE 减半只对实时推理场景有价值，训练成本下降对所有部署路径都有价值。

数据源：arXiv cs.CL 2026-06-16 / 2026-06-17 提交列表 · 论文摘要与代码仓库链接已附