扩散语言模型(dLLM)后训练范式正在成型:VoidPadding 与 d-OPSD 双论文解读

2026-06-17 · 每日调研 · 论文方向:Masked Diffusion LLMs · Inference & Post-training

为什么重要。扩散语言模型(dLLM,例如 LLaDA / Dream / MDLM)正在从「预训练可玩」走向「可指令微调、可强化学习、可落地推理」。6 月 16 日同一天 arXiv 上冒出两篇互补论文——一篇解决 推理时响应长度建模(VoidPadding),一篇解决 训练时on-policy 自蒸馏(d-OPSD)——它们都明确指出:自回归(AR)范式下的设计假设在 dLLM 上不再成立。这是 dLLM 工具链从「模仿 AR」转向「自成一派」的早期信号。

核心判断:两篇论文的共同方法论是「拆 AR 假设」——把 AR 时代偷渡进来的两个隐式假设([EOS] 既是终止符又是 padding;teacher 拥有 ground-truth prefix 作为特权信息)从 dLLM 训练/推理中剥离掉。改用专门设计的 [VOID] token 和「self-future」conditioning。

核心论文解读

① VoidPadding — 让 [VOID] 接管 padding,把 [EOS] 还给语义终止

② d-OPSD — dLLM 的首个 on-policy 自蒸馏框架,向「self-future」学习

注意:两篇论文都是 单日(2026-06-16)上传的 preprint,未经同行评审,benchmark 选择和 baseline 设置可能对结论有偏——尤其是 d-OPSD 论文里 dLLM 用 RLVR 的步数对比,是否公平地控制了 reward 模型成本、KL 系数等超参,需要看代码和附录才能下结论。

技术原理:两篇论文放在一起看

维度VoidPaddingd-OPSD
切入环节推理时(inference)训练时(post-training)
解决的 AR 假设[EOS] 既是终止符又是 paddingteacher 拥有 ground-truth prefix
核心创新引入 [VOID] token 分离两种角色Self-future 条件化 + step-level KL
作用范围大块解码 / 自适应长度推理任务的强化学习式优化
数据效率NFE 减少 55.7%训练步数减少 ~90%(vs RLVR)
基座Dream-7B-Instruct未具体指明(多 dLLM 基座)
代码已开源已开源

两条线合并的图景是:dLLM 想要真正替代 AR LLM 做产品级推理,必须把训练和推理里所有「从 AR 偷渡过来的设计」逐一替换。VoidPadding 解决了输出长度建模,d-OPSD 解决了 on-policy 优化——下一波应该会出现在 (1) 长上下文 / 工具调用下的 dLLM KV 缓存设计、(2) 多模态 dLLM(文本+图像+音频统一去噪)、(3) dLLM 的安全对齐(DPO / RLHF 怎么不依赖 AR prefix)。

相关工作背景

我的判断

  1. 信号 vs 噪音:两篇论文都不是「scaling 层面的胜利」——没有更多参数、没有更多数据。它们是机制层的工作:指出 AR 范式在 dLLM 上的不适用性,并给出可落地的替代方案。这比单纯刷 benchmark 更有杠杆,因为一旦社区接受这套新假设,dLLM 工具链会快速范式迁移。
  2. 对 JC 自己的意义:如果你在 picturebook-kg 或任何 LLM 应用里评估 dLLM 作为 AR LLM 的替代品——现在还没有到 P0 替换的时候,但值得跑一个 PoC:用 Dream-7B + VoidPadding 替代某个短回答场景的 GPT-4o-mini,看 NFE 砍半带来的 latency 改善是否对产品体验有感知级影响。
  3. 需要警惕:VoidPadding 引入 [VOID] 改 tokenizer → 与 HuggingFace 生态里大量依赖原 vocab 的代码会有兼容成本;d-OPSD 的「self-future」是经验性巧思,理论根基未立——等独立复现,尤其是 Dream / LLaDA 之外的 dLLM 变体。
  4. 如果只能读一篇:d-OPSD。理由:它解决的是训练效率问题(10% 步数),杠杆比 VoidPadding 的「NFE -55%」更普适——NFE 减半只对实时推理场景有价值,训练成本下降对所有部署路径都有价值。

数据源:arXiv cs.CL 2026-06-16 / 2026-06-17 提交列表 · 论文摘要与代码仓库链接已附