Diffusion 语言模型 + RAG:SARDI 的自我增强检索

2026年6月6日 · ICML 2026扩散模型RAG

为什么重要
离散扩散语言模型(dLLM)是自回归范式的最大挑战者——并行生成、天然双向上下文。但 RAG(检索增强生成)在 dLLM 上一直是个短板:自回归模型可以在生成过程中逐 token 触发检索,dLLM 的并行去噪过程却没有自然的检索窗口。SARDI 用一个巧妙的观察打破了这一限制:去噪过程中被丢弃的低置信度 tokens 反而是宝贵的"前瞻信号",可以用来指导检索,且完全不需额外训练。

核心论文解读

SARDI: Self-Augmenting Retrieval for Diffusion Language Models

作者:Paul Jünger, Justin Lovelace, Linxi Zhao, Dongyoung Go, Kilian Q. Weinberger

论文arXiv:2606.06474 · ICML 2026

技术原理

离散扩散模型的工作方式与自回归模型截然不同:

  1. 初始化:整个输出序列全部被 mask(或随机初始化)
  2. 迭代去噪:每一步并行预测所有位置的 token,高置信度的直接 commit,低置信度的丢弃并在下一步重新预测
  3. 终止:当所有位置的置信度超过阈值时停止

SARDI 的核心洞察:那些"被丢弃的"低置信度 token 并非纯噪音。在去噪早期,即使置信度不高,它们也经常指向正确答案中的关键实体。例如在回答"谁是 OpenAI 的 CEO"时,即使完整答案还没形成,丢弃的 token 中就可能浮现 "Sam Altman" 的特征。

关键机制:SARDI 在每个去噪步骤中,同时维护两个路径——①正常去噪生成;②将丢弃的 token 拼接成查询字符串,实时检索外部知识库,把检索结果注入到后续去噪步骤中。整个过程训练无关、检索器无关,可以接入任何离散扩散模型。
特性SARDI传统 AR + RAG纯 dLLM (无 RAG)
训练成本需要对齐训练N/A
检索时机去噪过程中动态触发生成前一次性检索无检索
吞吐量 (相对)8× AR baseline因缺乏知识准确率低
适用模型任意 reasoning-capable dLLM任意 AR-LLMN/A

实验结果

在 5 个 multi-hop QA 基准测试中,SARDI 全面超越当前所有训练无关的扩散模型和自回归检索基线。关键数据:

局限性

相关工作

LLaDA 系列:离散扩散语言模型的基础设施

离散扩散语言模型的里程碑式工作来自中国人民大学/百川的 LLaDAarXiv:2502.09992),首次展示了 8B 级别的扩散语言模型能达到与同规模自回归模型可比的下游性能。后续 LLaDA 1.5 引入 VRPO(Variance-Reduced Policy Optimization)改善偏好对齐,LLaDA-MoE-7B-A1B 则首次从零预训练混合专家扩散模型,仅用 ~1B 激活参数即超越 LLaDA 1.5 的 8B 密集模型。

SARDI 可直接运行在 LLaDA 系列之上,是扩散语言模型生态从"能跑"到"好用"的关键补充。

MLEvolve:LLM Agent 的自进化算法发现

同期发表的 MLEvolvearXiv:2606.06473)代表了 LLM agent 方向的另一条前沿:将树搜索扩展为 Progressive MCGS,配合 Retrospective Memory 实现跨任务经验复用,在 MLE-Bench 上用 12 小时预算(标准的一半) 达到 SOTA,并超越专门的 AlphaEvolve。代码已开源(github.com/InternScience/MLEvolve)。

MLEvolve 和 SARDI 从不同方向展示了同一个趋势:不是造更大的模型,而是让模型在工作过程中自我改进——SARDI 通过生成过程中的"废料"自我增强,MLEvolve 通过跨任务记忆积累自进化。

Code2LoRA:Hypernetwork 生成的代码适配器

Code2LoRAarXiv:2606.06492)提出用 hypernetwork 直接生成仓库专属的 LoRA 权重,将仓库知识注入模型而不占用推理 token 预算。更惊艳的是 Code2LoRA-Evo 变体:用 GRU 隐状态追踪代码变更,适配器随代码库演进自动更新。在自建的 RepoPeftBench(604 个 Python 仓库)上,静态版本达到 63.8% cross-repo exact match,与逐仓库 LoRA 微调的上界持平。

OpAI-Bench:AI 文本检测的多粒度基准

OpAI-BencharXiv:2606.06481)聚焦一个被忽视的问题:现实中 AI 辅助写作是渐进式的人机协作编辑,而非全人或全 AI 的二分类。研究发现了一个反直觉现象——混合编辑的中间产物反而比两端(纯人工 / 纯 AI)更难检测。对 AI 检测工具的实际部署有直接指导意义。

我的判断

扩散语言模型 + RAG 是一个被低估的组合。自回归模型的逐 token 生成与检索天然匹配(生成到一半发现知识不够 → 检索 → 继续),但 dLLM 的并行去噪在 RAG 上反而更高效——SARDI 证明了这一点:训练无关的检索就能带来 8× 吞吐提升。
谨慎点:dLLM 的推理延迟与生成质量的 trade-off 仍是核心瓶颈。尽管 SARDI 在吞吐量上有数量级优势,但绝对值上 GPT-4o/Claude 这些 AR 模型在大部分任务上仍领先。如果到 2026 年底没有 100B+ 级别的 dLLM 开源,这条路线可能在产业界继续边缘化。

三个值得跟踪的信号:

  1. LLaDA 团队是否会发布 30B+ MoE 模型——这将决定 dLLM 能否在绝对性能上逼近前沿 AR 模型
  2. SARDI 的方法能否扩展到代码生成和长文本摘要——这些场景里"前瞻 token"的信息量可能比 QA 更高
  3. Google/Meta 是否有内部 dLLM 项目——大厂的入场意愿决定了生态资源的流向

本期最值得读的论文是 SARDI。 不是因为它的绝对性能,而是因为它展示了一种"利用过程信息而非结果"的设计思维——被丢弃的 token 不是废料,是信号。这种思维在 AI 系统设计中会越来越重要。