Diffusion 语言模型 + RAG：SARDI 的自我增强检索

2026年6月6日 · ICML 2026扩散模型RAG

为什么重要

离散扩散语言模型（dLLM）是自回归范式的最大挑战者——并行生成、天然双向上下文。但 RAG（检索增强生成）在 dLLM 上一直是个短板：自回归模型可以在生成过程中逐 token 触发检索，dLLM 的并行去噪过程却没有自然的检索窗口。SARDI 用一个巧妙的观察打破了这一限制：去噪过程中被丢弃的低置信度 tokens 反而是宝贵的"前瞻信号"，可以用来指导检索，且完全不需额外训练。

核心论文解读

SARDI: Self-Augmenting Retrieval for Diffusion Language Models

作者：Paul Jünger, Justin Lovelace, Linxi Zhao, Dongyoung Go, Kilian Q. Weinberger

论文：arXiv:2606.06474 · ICML 2026

技术原理

离散扩散模型的工作方式与自回归模型截然不同：

初始化：整个输出序列全部被 mask（或随机初始化）
迭代去噪：每一步并行预测所有位置的 token，高置信度的直接 commit，低置信度的丢弃并在下一步重新预测
终止：当所有位置的置信度超过阈值时停止

SARDI 的核心洞察：那些"被丢弃的"低置信度 token 并非纯噪音。在去噪早期，即使置信度不高，它们也经常指向正确答案中的关键实体。例如在回答"谁是 OpenAI 的 CEO"时，即使完整答案还没形成，丢弃的 token 中就可能浮现 "Sam Altman" 的特征。

关键机制：SARDI 在每个去噪步骤中，同时维护两个路径——①正常去噪生成；②将丢弃的 token 拼接成查询字符串，实时检索外部知识库，把检索结果注入到后续去噪步骤中。整个过程训练无关、检索器无关，可以接入任何离散扩散模型。

特性	SARDI	传统 AR + RAG	纯 dLLM (无 RAG)
训练成本	零	需要对齐训练	N/A
检索时机	去噪过程中动态触发	生成前一次性检索	无检索
吞吐量 (相对)	8× AR baseline	1×	因缺乏知识准确率低
适用模型	任意 reasoning-capable dLLM	任意 AR-LLM	N/A

实验结果

在 5 个 multi-hop QA 基准测试中，SARDI 全面超越当前所有训练无关的扩散模型和自回归检索基线。关键数据：

准确率超越 AR+RAG baseline，同时吞吐量提升 8 倍
与需要微调的 dLLM+RAG 方法相比，准确率接近但完全不需要训练
对各种检索器（BM25、Dense retriever）均有效

局限性

依赖 dLLM 的去噪机制，无法用于自回归模型（GPT 系列等）
dLLM 目前仍处于早期，最大的开源模型（LLaDA-MoE-7B）在绝对性能上尚未超过 GPT-4 级别 AR 模型
论文仅在 QA 场景验证，开放域对话、代码生成等场景待探索

我的判断

扩散语言模型 + RAG 是一个被低估的组合。自回归模型的逐 token 生成与检索天然匹配（生成到一半发现知识不够 → 检索 → 继续），但 dLLM 的并行去噪在 RAG 上反而更高效——SARDI 证明了这一点：训练无关的检索就能带来 8× 吞吐提升。

谨慎点：dLLM 的推理延迟与生成质量的 trade-off 仍是核心瓶颈。尽管 SARDI 在吞吐量上有数量级优势，但绝对值上 GPT-4o/Claude 这些 AR 模型在大部分任务上仍领先。如果到 2026 年底没有 100B+ 级别的 dLLM 开源，这条路线可能在产业界继续边缘化。

三个值得跟踪的信号：

LLaDA 团队是否会发布 30B+ MoE 模型——这将决定 dLLM 能否在绝对性能上逼近前沿 AR 模型
SARDI 的方法能否扩展到代码生成和长文本摘要——这些场景里"前瞻 token"的信息量可能比 QA 更高
Google/Meta 是否有内部 dLLM 项目——大厂的入场意愿决定了生态资源的流向

本期最值得读的论文是 SARDI。 不是因为它的绝对性能，而是因为它展示了一种"利用过程信息而非结果"的设计思维——被丢弃的 token 不是废料，是信号。这种思维在 AI 系统设计中会越来越重要。

Diffusion 语言模型 + RAG：SARDI 的自我增强检索

核心论文解读

SARDI: Self-Augmenting Retrieval for Diffusion Language Models

技术原理

实验结果

局限性

相关工作

LLaDA 系列：离散扩散语言模型的基础设施

MLEvolve：LLM Agent 的自进化算法发现

Code2LoRA：Hypernetwork 生成的代码适配器

OpAI-Bench：AI 文本检测的多粒度基准

我的判断