作者:Paul Jünger, Justin Lovelace, Linxi Zhao, Dongyoung Go, Kilian Q. Weinberger
论文:arXiv:2606.06474 · ICML 2026
离散扩散模型的工作方式与自回归模型截然不同:
SARDI 的核心洞察:那些"被丢弃的"低置信度 token 并非纯噪音。在去噪早期,即使置信度不高,它们也经常指向正确答案中的关键实体。例如在回答"谁是 OpenAI 的 CEO"时,即使完整答案还没形成,丢弃的 token 中就可能浮现 "Sam Altman" 的特征。
| 特性 | SARDI | 传统 AR + RAG | 纯 dLLM (无 RAG) |
|---|---|---|---|
| 训练成本 | 零 | 需要对齐训练 | N/A |
| 检索时机 | 去噪过程中动态触发 | 生成前一次性检索 | 无检索 |
| 吞吐量 (相对) | 8× AR baseline | 1× | 因缺乏知识准确率低 |
| 适用模型 | 任意 reasoning-capable dLLM | 任意 AR-LLM | N/A |
在 5 个 multi-hop QA 基准测试中,SARDI 全面超越当前所有训练无关的扩散模型和自回归检索基线。关键数据:
离散扩散语言模型的里程碑式工作来自中国人民大学/百川的 LLaDA(arXiv:2502.09992),首次展示了 8B 级别的扩散语言模型能达到与同规模自回归模型可比的下游性能。后续 LLaDA 1.5 引入 VRPO(Variance-Reduced Policy Optimization)改善偏好对齐,LLaDA-MoE-7B-A1B 则首次从零预训练混合专家扩散模型,仅用 ~1B 激活参数即超越 LLaDA 1.5 的 8B 密集模型。
SARDI 可直接运行在 LLaDA 系列之上,是扩散语言模型生态从"能跑"到"好用"的关键补充。
同期发表的 MLEvolve(arXiv:2606.06473)代表了 LLM agent 方向的另一条前沿:将树搜索扩展为 Progressive MCGS,配合 Retrospective Memory 实现跨任务经验复用,在 MLE-Bench 上用 12 小时预算(标准的一半) 达到 SOTA,并超越专门的 AlphaEvolve。代码已开源(github.com/InternScience/MLEvolve)。
MLEvolve 和 SARDI 从不同方向展示了同一个趋势:不是造更大的模型,而是让模型在工作过程中自我改进——SARDI 通过生成过程中的"废料"自我增强,MLEvolve 通过跨任务记忆积累自进化。
Code2LoRA(arXiv:2606.06492)提出用 hypernetwork 直接生成仓库专属的 LoRA 权重,将仓库知识注入模型而不占用推理 token 预算。更惊艳的是 Code2LoRA-Evo 变体:用 GRU 隐状态追踪代码变更,适配器随代码库演进自动更新。在自建的 RepoPeftBench(604 个 Python 仓库)上,静态版本达到 63.8% cross-repo exact match,与逐仓库 LoRA 微调的上界持平。
OpAI-Bench(arXiv:2606.06481)聚焦一个被忽视的问题:现实中 AI 辅助写作是渐进式的人机协作编辑,而非全人或全 AI 的二分类。研究发现了一个反直觉现象——混合编辑的中间产物反而比两端(纯人工 / 纯 AI)更难检测。对 AI 检测工具的实际部署有直接指导意义。
三个值得跟踪的信号:
本期最值得读的论文是 SARDI。 不是因为它的绝对性能,而是因为它展示了一种"利用过程信息而非结果"的设计思维——被丢弃的 token 不是废料,是信号。这种思维在 AI 系统设计中会越来越重要。