🔬 Diffusion LLM:跨架构蒸馏与记忆机制的最新突破

📅 2026-04-30 | 来源:arXiv cs.AI / cs.CL / cs.LG

为什么重要: Diffusion Large Language Models (dLLMs) 是除自回归 (AR) 范式外最有潜力的替代路径,支持并行解码和双向上下文建模。但当前 SOTA 的 dLLM 需要数十亿参数才能与 AR 模型竞争,且其内部记忆机制未知。本周两篇论文分别从 跨架构蒸馏缩小模型体积揭示记忆-泛化转换边界 两个角度,填补了关键空白。

📄 核心论文解读

1️⃣ Turning the TIDE: Cross-Architecture Distillation for Diffusion Large Language Models

arXiv:2604.26951 代码已开源 PKU YuanGroup

Gongbo Zhang, Wen Wang, Ye Tian, Li Yuan

要解决的问题: 现有的 dLLM 蒸馏方法只做 同架构 知识迁移(如减少推理步数),而教师和学生若使用不同的架构、注意力机制甚至 tokenizer,则无从下手。

🔑 关键技术点
⚠️ 局限性

2️⃣ Language Diffusion Models are Associative Memories Capable of Retrieving Unseen Data

arXiv:2604.26841 cs.LG / cs.AI / cs.CL

Bao Pham, Mohammed J. Zaki, Luca Ambrogioni, Dmitry Krotov, Matteo Negri

要解决的问题: 扩散语言模型到底是在记忆训练数据,还是在真正泛化?如何定量区分?这是部署前评估模型风险的关键问题。

🔑 关键技术点
⚠️ 局限性

🔗 相关工作

💡 我的判断

📊 调研成本:API 调用 10 次 | Token 约 22K 输入 + 6K 输出 | 耗时 75 秒