🧠 LLM 潜在推理：从显式 CoT 到隐式思维

为什么重要
2026年4月，多篇论文同时指向一个核心问题：LLM 的推理能力到底发生在显式的 Chain-of-Thought 文本中，还是在模型内部的潜在表征空间里？这个问题的答案直接影响 inference-time scaling 的效率（能否用更少的 token 达到同等推理质量）、模型可解释性方向、以及新一代推理架构的设计。一场范式迁移正在酝酿。

核心论点：LLM 推理本质是潜在空间中的状态轨迹演化，显式 CoT 文本只是这种轨迹的"投影"或"副产品"——而非推理本身。

📄 核心论文解读

论文 1：Abstract Chain-of-Thought — 用「哑 token」替代自然语言 CoT

Thinking Without Words: Efficient Latent Reasoning with Abstract Chain-of-Thought

arXiv:2604.22709 NEW Keshav Ramji, Tahira Naseem, Ramón Fernandez Astudillo (IBM Research)

核心思路

从保留词汇表中取出一小段「抽象 token」（abstract tokens），替代自然语言 CoT，再生成最终回答
通过 policy iteration 式 warm-up loop 让模型学会使用这些原本无意义的抽象 token：交替执行探索生成 → 评估正确性 → 强化学习
推理时只生成少量 abstract tokens（而非数百字自然语言），显著降低推理成本
实验在 GSM8K 和 MATH 上验证，在相近准确率下生成长度缩短 60-80%

技术亮点

这是首个将 discrete latent reasoning 与 policy iteration 结合的工作
抽象 token 可视为 latent reasoning 的「离散编码」——比连续 latent 更易优化和解读

局限：抽象 token 的可迁移性未知（不同任务是否需不同抽象空间）；warm-up 阶段需要额外的强化学习训练开销

论文 2：Reasoning as Trajectories — CoT 是表征空间的轨迹

LLM Reasoning as Trajectories: Step-Specific Representation Geometry and Correctness Signals

arXiv:2604.05655 Lihao Sun, Hang Dong, Bo Qiao et al. (Microsoft)

核心思路

通过 probing 分析证明：数学推理在表征空间中沿着 功能有序、步骤特定的子空间 演化的轨迹
这种分步子空间结构 在 base model（未经过推理训练）中已存在，推理训练只是加速了向终止子空间的收敛
提出了利用表征几何特征来预测推理步骤正确性的方法——无需访问最终答案即可判断当前推理方向是否正确

技术亮点

提供了 机制层面的直接证据：推理不是 CoT 文本创造出来的，而是原本就存在于 latent space 中的结构
基于表征几何的正确性信号可用于 early stopping 和错误步骤检测

局限：实验仅限于数学推理（GSM8K/MATH），未验证在更开放域的推理任务（如代码生成、多步问答）中是否成立

论文 3：∇-Reasoner — 在潜在空间中做梯度下降

∇-Reasoner: LLM Reasoning via Test-Time Gradient Descent in Latent Space

arXiv:2603.04948 HIGH IMPACT Peihao Wang, Ruisi Cai, Zhen Wang et al. (UT Austin / Georgia Tech)

核心思路

提出在推理时对 token logits 做 可微分优化（通过 surrogate gradient），在潜在空间中直接搜索最佳推理路径
摒弃了传统的离散搜索（如 beam search / MCTS）或试错式 prompt 方法
将推理过程形式化为：$\text{latent} \to \text{optimization} \to \text{generation}$
在数学推理、逻辑推理和代码生成任务上，以更少的 token 消耗达到或超过 CoT + self-consistency 的效果

技术亮点

首次将 test-time gradient descent 直接应用于 LLM 推理过程
可微优化天然支持更高效的搜索，比离散搜索方法快 5-10 倍

局限：需要额外的计算开销进行梯度计算；对长序列的稳定性尚未充分验证；依赖于特定的模型架构（需暴露 logits 梯度）

论文 4：LLM Reasoning Is Latent — 理论框架的建构

LLM Reasoning Is Latent, Not the Chain of Thought

arXiv:2604.15726 Wenshuo Wang (独立研究者)

核心思路

形式化提出三个竞争假说：
H1：推理主要由潜在状态轨迹介导（latent hypothesis）
H2：推理主要由显式表面 CoT 介导（surface hypothesis）
H0：推理增益可归因于通用序列计算（generic serial compute hypothesis）
系统性地整理了近期的实证研究、机制分析和调查工作，重新组织在这三个假说的框架下
通过 compute-audited 工作实例分离 CoT 文本和潜在推理各自的贡献

技术亮点

为整个领域提供了统一的 概念框架，让不同研究方向的发现可以在一个坐标系中比较
明确指出：CoT 忠实性假设（faithfulness）不可靠，基于 CoT 的可解释性方法需要重新审视

局限：纯理论/立场论文，未提供新的实验结果；部分论点高度依赖既有文献的解读，争议性较强

🔗 相关工作

🎯 我的判断

方向确认：这波论文不是巧合。从微软的机制分析（论文2）、到 IBM 的离散 latent 方法（论文1）、再到 ∇-Reasoner 的可微优化（论文3）和独立理论框架（论文4），多条独立线索汇聚到同一个结论——latent reasoning 是 LLM 推理的核心机制，CoT 是其投影。

实用价值：对于部署场景，Abstract CoT 和 ∇-Reasoner 都指向更低的推理成本和更高的效率。如果你的应用依赖长 CoT 输出，这些方法可能在未来 6-12 个月内显著优化成本结构。

争议与风险：H0 假说（推理增益 = 通用计算量）没有被彻底否定。如果 H0 成立，那么「潜在推理」可能只是一个漂亮的故事而非真正的机制。需要更多对照实验来区分。

值得跟进：Abstract CoT 的可迁移性和任务泛化能力、∇-Reasoner 在长序列上的稳定性、以及是否有开源实现（目前均无 GitHub 仓库）。如果这些方法被验证可迁移，将直接影响 LLM 推理管线的设计范式。

个人优先级：⭐⭐⭐⭐ — 这是当前推理效率优化的关键方向之一，但距离产品化还有距离。建议作为技术雷达的「关注」而非「立即行动」。可设置 1 个月后复查开源实现状态。

📋 数据来源

ArXiv cs.AI Recent (Mon 27 Apr 2026) — 92 entries
ArXiv cs.CL Recent (Mon 27 Apr 2026) — 61 entries
Web Search: site:arxiv.org LLM reasoning 2026