LLM推理新范式：从链式思维到潜伏工作记忆

为什么重要：当前主流推理方法（Chain-of-Thought、self-talk等）都将中间思维外部化 token，这既浪费算力又引入质量不稳定问题。两篇最新论文从不同角度挑战这一范式——一篇提出用固定记忆块替代自回归生成，实现单次前向传播的潜伏推理；另一篇则系统解决了LLM预训练数据混合的逆向诊断问题。两者共同指向一个方向：LLM的内部表征比输出 token 流更值得关注。

核心论文解读

论文一：Reasoning in Memory (RiM)

标题：Unlocking the Working Memory of Large Language Models for Latent Reasoning
作者：Lukas Aichberger et al. · arXiv:2605.30343 · cs.CL
代码：待发布

核心问题：现有测试时推理方法（CoT、ToT等）通过生成中间 token 来扩展计算，但两个根本缺陷被长期忽视：

思维外部化：内部认知计算被迫序列化为文本，耦合了"真正在思考"和"在输出文字"两件完全不同的事
算力浪费：每一步生成的token还要经过完整语言模型前向传播，实际上是"说给自己听"

核心方法：RiM 提出用固定序列的特殊 token（memory blocks）替代自回归生成的思维 token。这些记忆块在训练时被植入，不经过采样生成，因此可以在单次前向传播中完成全部推理计算。

关键技术：两阶段课程训练
阶段一：在每个 memory block 后预测显式推理步骤（作为 grounding 信号）
阶段二：去掉步骤级监督，只在每个 memory block 后 refine 最终答案

这相当于让模型学会"用固定框架内部消化问题"，而不是"把思考过程说出来"。

实验结果：在多个推理基准上，RiM 在不同模型家族和规模下均达到或超过现有潜伏推理方法，同时完全避免了思维 token 的自回归生成。

局限性：

Memory block 数量和位置需要预先设计或搜索，当前 paper 未公开最优配置方法
两阶段训练 pipeline 增加了训练复杂度
目前仅在推理基准上验证，长文本生成等场景尚未覆盖
仍是 preprint，代码未发布，无法独立复现

论文二：LLMSurgeon

标题：Diagnosing Data Mixture of Large Language Models
作者：Zhiqiang Shen et al. · arXiv:2605.30348 · ACL 2026 Main
代码：github.com/Yaxin9Luo/LLMSurgeon

核心问题：预训练数据混合比例是LLM的"数字DNA"，决定了模型的能力图谱和失败模式。但各厂商几乎不披露训练数据构成，外部研究者无法审计——这对于安全审计、能力归因、监管合规都是严重障碍。

核心方法：提出 Data Mixture Surgery (DMS) 任务形式——仅给定目标LLM生成的文本，反向估计其在预定义类目体系下的数据混合比例。核心依赖标签转移假设（label-shift assumption），通过以下步骤实现：

训练一个 domain classifier，区分LLM生成的文本属于哪个数据源
估计一个校准的软混淆矩阵，解决跨 domain 的系统性分类偏差
将反演问题建模为约束优化，求解隐式混合先验

关键洞察：不能直接用 classifier 聚合结果（误差会级联），必须先对混淆矩阵做校准再反解。这使得 LLMSurgeon 在固定协议下能高精度恢复真实混合比例。

评估体系：构建 LLMScan——基于开源LLM且训练数据透明可验证的评测套件。实验证明 LLMSurgeon 可高保真恢复域级混合比例。

局限性：

依赖预定义的 domain 类目体系，如果真实数据来源超出类目范围则失效
假设数据混合是"独立同分布采样"，实际中可能存在更复杂的层级依赖
仅覆盖 domain-level 粒度，更细粒度的来源追溯（如具体文档级别）仍有待研究

方向	代表工作	与本期论文的关系
潜伏推理	Quiet-STaR, Thought Embedding, STE	RiM 是该方向的最新进展，核心区别在于用固定 memory block 替代学习生成的隐式向量
数据审计	Min-K% Prob, DAI, Datasetensics	LLMSurgeon 在"黑盒诊断训练数据构成"这个子任务上首次达到可验证的高精度
思维链范式	CoT, ToT, ReAct, self-talk	RiM 本质上是对"思维必须说出来"这一隐含假设的根本性挑战
工作记忆建模	Recurrent, RWKV, HGRN, Mamba	RiM 的 motivation 来自认知科学中人类工作记忆的内部操作，与 RNN 类架构有理论共鸣

LLM推理新范式：从链式思维到潜伏工作记忆

核心论文解读

论文一：Reasoning in Memory (RiM)

论文二：LLMSurgeon

相关工作

我的判断