为什么重要:当前主流推理方法(Chain-of-Thought、self-talk等)都将中间思维外部化 token,这既浪费算力又引入质量不稳定问题。两篇最新论文从不同角度挑战这一范式——一篇提出用固定记忆块替代自回归生成,实现单次前向传播的潜伏推理;另一篇则系统解决了LLM预训练数据混合的逆向诊断问题。两者共同指向一个方向:LLM的内部表征比输出 token 流更值得关注。
标题:Unlocking the Working Memory of Large Language Models for Latent Reasoning
作者:Lukas Aichberger et al. · arXiv:2605.30343 · cs.CL
代码:待发布
核心问题:现有测试时推理方法(CoT、ToT等)通过生成中间 token 来扩展计算,但两个根本缺陷被长期忽视:
核心方法:RiM 提出用固定序列的特殊 token(memory blocks)替代自回归生成的思维 token。这些记忆块在训练时被植入,不经过采样生成,因此可以在单次前向传播中完成全部推理计算。
实验结果:在多个推理基准上,RiM 在不同模型家族和规模下均达到或超过现有潜伏推理方法,同时完全避免了思维 token 的自回归生成。
局限性:
标题:Diagnosing Data Mixture of Large Language Models
作者:Zhiqiang Shen et al. · arXiv:2605.30348 · ACL 2026 Main
代码:github.com/Yaxin9Luo/LLMSurgeon
核心问题:预训练数据混合比例是LLM的"数字DNA",决定了模型的能力图谱和失败模式。但各厂商几乎不披露训练数据构成,外部研究者无法审计——这对于安全审计、能力归因、监管合规都是严重障碍。
核心方法:提出 Data Mixture Surgery (DMS) 任务形式——仅给定目标LLM生成的文本,反向估计其在预定义类目体系下的数据混合比例。核心依赖标签转移假设(label-shift assumption),通过以下步骤实现:
评估体系:构建 LLMScan——基于开源LLM且训练数据透明可验证的评测套件。实验证明 LLMSurgeon 可高保真恢复域级混合比例。
局限性:
| 方向 | 代表工作 | 与本期论文的关系 |
|---|---|---|
| 潜伏推理 | Quiet-STaR, Thought Embedding, STE | RiM 是该方向的最新进展,核心区别在于用固定 memory block 替代学习生成的隐式向量 |
| 数据审计 | Min-K% Prob, DAI, Datasetensics | LLMSurgeon 在"黑盒诊断训练数据构成"这个子任务上首次达到可验证的高精度 |
| 思维链范式 | CoT, ToT, ReAct, self-talk | RiM 本质上是对"思维必须说出来"这一隐含假设的根本性挑战 |
| 工作记忆建模 | Recurrent, RWKV, HGRN, Mamba | RiM 的 motivation 来自认知科学中人类工作记忆的内部操作,与 RNN 类架构有理论共鸣 |
RiM 更值得关注——原因不在于"单次前向传播"这个工程优势,而在于它触及了一个根本问题:LLM 的内部表征空间远比输出 token 流更有表达潜力。CoT 范式本质上是把神经网络压缩到文字层面再展开,而 RiM 试图把思维保留在向量空间里完成。如果 memory block 的设计可以更自动化(比如自动发现最优 block 数量和语义角色),这可能比继续堆叠 token 生成的 scale 更高效。
需要注意的风险:两篇论文目前公开信息有限(RiM 代码未发布、LLMSurgeon 是 ACL 主会接收但尚未公开完整 camera-ready)。建议等正式版本和第三方复现结果再下结论。
对实践者的意义: