LLM推理新范式:从链式思维到潜伏工作记忆

2026-05-30 · AI/NLP技术追踪

为什么重要:当前主流推理方法(Chain-of-Thought、self-talk等)都将中间思维外部化 token,这既浪费算力又引入质量不稳定问题。两篇最新论文从不同角度挑战这一范式——一篇提出用固定记忆块替代自回归生成,实现单次前向传播的潜伏推理;另一篇则系统解决了LLM预训练数据混合的逆向诊断问题。两者共同指向一个方向:LLM的内部表征比输出 token 流更值得关注

核心论文解读

论文一:Reasoning in Memory (RiM)

标题:Unlocking the Working Memory of Large Language Models for Latent Reasoning
作者:Lukas Aichberger et al. · arXiv:2605.30343 · cs.CL
代码:待发布

核心问题:现有测试时推理方法(CoT、ToT等)通过生成中间 token 来扩展计算,但两个根本缺陷被长期忽视:

  1. 思维外部化:内部认知计算被迫序列化为文本,耦合了"真正在思考"和"在输出文字"两件完全不同的事
  2. 算力浪费:每一步生成的token还要经过完整语言模型前向传播,实际上是"说给自己听"

核心方法:RiM 提出用固定序列的特殊 token(memory blocks)替代自回归生成的思维 token。这些记忆块在训练时被植入,不经过采样生成,因此可以在单次前向传播中完成全部推理计算。

关键技术:两阶段课程训练 这相当于让模型学会"用固定框架内部消化问题",而不是"把思考过程说出来"。

实验结果:在多个推理基准上,RiM 在不同模型家族和规模下均达到或超过现有潜伏推理方法,同时完全避免了思维 token 的自回归生成。

局限性

论文二:LLMSurgeon

标题:Diagnosing Data Mixture of Large Language Models
作者:Zhiqiang Shen et al. · arXiv:2605.30348 · ACL 2026 Main
代码github.com/Yaxin9Luo/LLMSurgeon

核心问题:预训练数据混合比例是LLM的"数字DNA",决定了模型的能力图谱和失败模式。但各厂商几乎不披露训练数据构成,外部研究者无法审计——这对于安全审计、能力归因、监管合规都是严重障碍。

核心方法:提出 Data Mixture Surgery (DMS) 任务形式——仅给定目标LLM生成的文本,反向估计其在预定义类目体系下的数据混合比例。核心依赖标签转移假设(label-shift assumption),通过以下步骤实现:

  1. 训练一个 domain classifier,区分LLM生成的文本属于哪个数据源
  2. 估计一个校准的软混淆矩阵,解决跨 domain 的系统性分类偏差
  3. 将反演问题建模为约束优化,求解隐式混合先验
关键洞察:不能直接用 classifier 聚合结果(误差会级联),必须先对混淆矩阵做校准再反解。这使得 LLMSurgeon 在固定协议下能高精度恢复真实混合比例。

评估体系:构建 LLMScan——基于开源LLM且训练数据透明可验证的评测套件。实验证明 LLMSurgeon 可高保真恢复域级混合比例。

局限性

相关工作

方向代表工作与本期论文的关系
潜伏推理Quiet-STaR, Thought Embedding, STERiM 是该方向的最新进展,核心区别在于用固定 memory block 替代学习生成的隐式向量
数据审计Min-K% Prob, DAI, DatasetensicsLLMSurgeon 在"黑盒诊断训练数据构成"这个子任务上首次达到可验证的高精度
思维链范式CoT, ToT, ReAct, self-talkRiM 本质上是对"思维必须说出来"这一隐含假设的根本性挑战
工作记忆建模Recurrent, RWKV, HGRN, MambaRiM 的 motivation 来自认知科学中人类工作记忆的内部操作,与 RNN 类架构有理论共鸣

我的判断

RiM 更值得关注——原因不在于"单次前向传播"这个工程优势,而在于它触及了一个根本问题:LLM 的内部表征空间远比输出 token 流更有表达潜力。CoT 范式本质上是把神经网络压缩到文字层面再展开,而 RiM 试图把思维保留在向量空间里完成。如果 memory block 的设计可以更自动化(比如自动发现最优 block 数量和语义角色),这可能比继续堆叠 token 生成的 scale 更高效。

需要注意的风险:两篇论文目前公开信息有限(RiM 代码未发布、LLMSurgeon 是 ACL 主会接收但尚未公开完整 camera-ready)。建议等正式版本和第三方复现结果再下结论。

对实践者的意义