🧠 LLM 潜在推理:从显式 CoT 到隐式思维
为什么重要
2026年4月,多篇论文同时指向一个核心问题:LLM 的推理能力到底发生在显式的 Chain-of-Thought 文本中,还是在模型内部的潜在表征空间里?这个问题的答案直接影响 inference-time scaling 的效率(能否用更少的 token 达到同等推理质量)、模型可解释性方向、以及新一代推理架构的设计。一场范式迁移正在酝酿。
核心论点:LLM 推理本质是潜在空间中的状态轨迹演化,显式 CoT 文本只是这种轨迹的"投影"或"副产品"——而非推理本身。
📄 核心论文解读
论文 1:Abstract Chain-of-Thought — 用「哑 token」替代自然语言 CoT
Thinking Without Words: Efficient Latent Reasoning with Abstract Chain-of-Thought
arXiv:2604.22709
NEW
Keshav Ramji, Tahira Naseem, Ramón Fernandez Astudillo (IBM Research)
核心思路
- 从保留词汇表中取出一小段「抽象 token」(abstract tokens),替代自然语言 CoT,再生成最终回答
- 通过 policy iteration 式 warm-up loop 让模型学会使用这些原本无意义的抽象 token:交替执行探索生成 → 评估正确性 → 强化学习
- 推理时只生成少量 abstract tokens(而非数百字自然语言),显著降低推理成本
- 实验在 GSM8K 和 MATH 上验证,在相近准确率下生成长度缩短 60-80%
技术亮点
- 这是首个将 discrete latent reasoning 与 policy iteration 结合的工作
- 抽象 token 可视为 latent reasoning 的「离散编码」——比连续 latent 更易优化和解读
局限:抽象 token 的可迁移性未知(不同任务是否需不同抽象空间);warm-up 阶段需要额外的强化学习训练开销
论文 2:Reasoning as Trajectories — CoT 是表征空间的轨迹
LLM Reasoning as Trajectories: Step-Specific Representation Geometry and Correctness Signals
arXiv:2604.05655
Lihao Sun, Hang Dong, Bo Qiao et al. (Microsoft)
核心思路
- 通过 probing 分析证明:数学推理在表征空间中沿着 功能有序、步骤特定的子空间 演化的轨迹
- 这种分步子空间结构 在 base model(未经过推理训练)中已存在,推理训练只是加速了向终止子空间的收敛
- 提出了利用表征几何特征来预测推理步骤正确性的方法——无需访问最终答案即可判断当前推理方向是否正确
技术亮点
- 提供了 机制层面的直接证据:推理不是 CoT 文本创造出来的,而是原本就存在于 latent space 中的结构
- 基于表征几何的正确性信号可用于 early stopping 和错误步骤检测
局限:实验仅限于数学推理(GSM8K/MATH),未验证在更开放域的推理任务(如代码生成、多步问答)中是否成立
论文 3:∇-Reasoner — 在潜在空间中做梯度下降
∇-Reasoner: LLM Reasoning via Test-Time Gradient Descent in Latent Space
arXiv:2603.04948
HIGH IMPACT
Peihao Wang, Ruisi Cai, Zhen Wang et al. (UT Austin / Georgia Tech)
核心思路
- 提出在推理时对 token logits 做 可微分优化(通过 surrogate gradient),在潜在空间中直接搜索最佳推理路径
- 摒弃了传统的离散搜索(如 beam search / MCTS)或试错式 prompt 方法
- 将推理过程形式化为:$\text{latent} \to \text{optimization} \to \text{generation}$
- 在数学推理、逻辑推理和代码生成任务上,以更少的 token 消耗达到或超过 CoT + self-consistency 的效果
技术亮点
- 首次将 test-time gradient descent 直接应用于 LLM 推理过程
- 可微优化天然支持更高效的搜索,比离散搜索方法快 5-10 倍
局限:需要额外的计算开销进行梯度计算;对长序列的稳定性尚未充分验证;依赖于特定的模型架构(需暴露 logits 梯度)
论文 4:LLM Reasoning Is Latent — 理论框架的建构
LLM Reasoning Is Latent, Not the Chain of Thought
arXiv:2604.15726
Wenshuo Wang (独立研究者)
核心思路
- 形式化提出三个竞争假说:
H1:推理主要由潜在状态轨迹介导(latent hypothesis)
H2:推理主要由显式表面 CoT 介导(surface hypothesis)
H0:推理增益可归因于通用序列计算(generic serial compute hypothesis)
- 系统性地整理了近期的实证研究、机制分析和调查工作,重新组织在这三个假说的框架下
- 通过 compute-audited 工作实例分离 CoT 文本和潜在推理各自的贡献
技术亮点
- 为整个领域提供了统一的 概念框架,让不同研究方向的发现可以在一个坐标系中比较
- 明确指出:CoT 忠实性假设(faithfulness)不可靠,基于 CoT 的可解释性方法需要重新审视
局限:纯理论/立场论文,未提供新的实验结果;部分论点高度依赖既有文献的解读,争议性较强
🔗 相关工作
🎯 我的判断
- 方向确认:这波论文不是巧合。从微软的机制分析(论文2)、到 IBM 的离散 latent 方法(论文1)、再到 ∇-Reasoner 的可微优化(论文3)和独立理论框架(论文4),多条独立线索汇聚到同一个结论——latent reasoning 是 LLM 推理的核心机制,CoT 是其投影。
- 实用价值:对于部署场景,Abstract CoT 和 ∇-Reasoner 都指向更低的推理成本和更高的效率。如果你的应用依赖长 CoT 输出,这些方法可能在未来 6-12 个月内显著优化成本结构。
- 争议与风险:H0 假说(推理增益 = 通用计算量)没有被彻底否定。如果 H0 成立,那么「潜在推理」可能只是一个漂亮的故事而非真正的机制。需要更多对照实验来区分。
- 值得跟进:Abstract CoT 的可迁移性和任务泛化能力、∇-Reasoner 在长序列上的稳定性、以及是否有开源实现(目前均无 GitHub 仓库)。如果这些方法被验证可迁移,将直接影响 LLM 推理管线的设计范式。
- 个人优先级:⭐⭐⭐⭐ — 这是当前推理效率优化的关键方向之一,但距离产品化还有距离。建议作为技术雷达的「关注」而非「立即行动」。可设置 1 个月后复查开源实现状态。
📋 数据来源
- ArXiv cs.AI Recent (Mon 27 Apr 2026) — 92 entries
- ArXiv cs.CL Recent (Mon 27 Apr 2026) — 61 entries
- Web Search: site:arxiv.org LLM reasoning 2026