深度调研：LLM 推理机制的范式重构——从浅层 CoT 到潜在空间优化

为什么重要：2026 年 Q1-Q2 的顶级会议论文（ICLR 2026、ACL 2026、TMLR 2026）集中冲击了一个核心问题：LLM 的推理能力到底来自哪里？三篇立场/理论论文从不同角度质疑了现有的 CoT 解释框架，而一系列新方法（梯度下降、test-time training、轨迹操控）正在将推理从「在文本空间搜索」推进到「在表征空间优化」。这直接影响到我们如何训练、评估和使用推理模型。

📌 核心论文解读

1. ∇-Reasoner: LLM Reasoning via Test-Time Gradient Descent in Latent Space ICLR 2026

作者：Peihao Wang, Ruisi Cai, Zhen Wang, Hongyuan Mei, Qiang Liu, Pan Li, Zhangyang Wang

核心贡献：

提出 Differentiable Textual Optimization (DTO)，在解码循环中对 token logits 执行可微优化
利用 LLM 自身似然 + reward model 的梯度信号，在 潜在空间 而非离散 token 空间中 refinement
理论证明：test-time 梯度下降 = KL 正则化 RL (RLHF) 的对偶形式——首次在理论上桥接了推理时优化与对齐训练
数学推理 benchmark 上准确率提升 20%+，同时减少 10-40% 的模型调用次数
核心范式转变：从零阶搜索（sampling/beam search）到一阶优化（gradient descent）

⚠️ 局限性：

需要额外的 reward model 提供梯度信号，增加了推理时的依赖
梯度计算带来额外的内存和计算开销，在超大规模模型上尚未验证
对 reward model 质量敏感：reward hacking 问题可能被梯度放大

2. LLM Reasoning Is Latent, Not the Chain of Thought Position Paper

作者：Wenshuo Wang

核心贡献：

形式化三个假设：H1（推理=潜在状态轨迹）、H2（推理=显式 CoT 文本）、H0（推理增益来自序列计算量，而非表征对象）
系统性地梳理现有实证、机制解释和综述工作，并用受控实验分离三者
结论：当前证据最支持 H1——推理主要发生在潜在表征空间，CoT 文本仅是副产品
两项建议：①以潜在状态动态为默认研究对象；②评估推理时应显式分离 CoT 文本、潜在状态和序列计算量

⚠️ 局限性：

自身是 position paper，没有提出新方法或新实验
H1 被表述为「默认工作假设」而非定论，强调任务依赖性
目前缺乏标准工具来直接观测潜在状态轨迹

3. LLM Reasoning as Trajectories: Step-Specific Representation Geometry ACL 2026 Main

作者：Lihao Sun, Hang Dong, Bo Qiao, Qingwei Lin, Dongmei Zhang, Saravan Rajmohan (Microsoft)

核心贡献：

发现数学推理在表征空间中遍历功能有序、分步特异的子空间，层越深分离度越高
推理训练主要加速了向终止相关子空间的收敛，而非引入新的表征组织
正确/错误解在后期步才系统性分岔——可在推理中途预测最终答案正确性（ROC-AUC 达 0.87）
提出 trajectory-based steering：基于「理想轨迹」做推理时的纠正和长度控制

⚠️ 局限性：

仅在数学推理场景验证（MATH/GSM8K），通用性待检验
轨迹操控需要预先定义「理想轨迹」，可能不适用于开放域推理
分析基于特定模型架构，跨架构的可迁移性未知

4. TEMPO: Scaling Test-time Training for Large Reasoning Models

作者：Qingyang Zhang, Xinke Kong, Haitao Wu 等

核心贡献：

指出现有 test-time training (TTT) 方法存在性能平台期和多样性坍缩问题
根源：policy 更新后，自生成的 reward signal 产生 drift，无外部校准
提出 EM 视角下的交替框架：policy refinement ⟷ critic recalibration（用小量标注数据周期校准评估器）
OLMO3-7B 在 AIME 2024 从 33.0% → 51.1%；Qwen3-14B 从 42.3% → 65.8%

⚠️ 局限性：

依赖少量但高质量的标注数据用于 critic recalibration
EM 过程理论上需多次迭代，实际部署时成本可能较高
多样性维持的长期效果有待验证（是否延缓了坍缩而非解决）

📚 相关工作

5. Barriers to Universal Reasoning With Transformers (发布日：2026-04-28)

作者：Oliver Kraus, Yash Sarrof, Yuekun Yao, Alexander Koller, Michael Hahn

理论论文，证明在有限字母表 + 标准位置编码下，带 CoT 的 Transformer 在「长度泛化」要求下表达能力限于 TC⁰。提出 signpost token + value change encoding 策略来解决重复复制和最后出现检索障碍。有代码

6. How Fast Should a Model Commit to Supervision? (发布日：2026-04-28)

作者：Chu-Cheng Lin, Eugene Ie

利用 Tsallis log-loss 连续体统一 RLVR (q=0) 和最大似然 (q=1)，提出两种估算器 GARL 和 PAFT。在冷启动时，密度估计极逃逸时间 O(log(1/p₀)) 远超 RL 极 O(1/p₀)。在 FinQA/HotPotQA/MuSiQue 上验证 q=0.75 有效缓解冷启动停滞。

7. Large Language Model Reasoning Failures TMLR 2026 Survey

作者：Peiyang Song, Pengrui Han, Noah Goodman

首个系统性 LLM 推理失败综述。将推理分为具身/非具身、非形式/形式推理，故障分为三类：架构内禀缺陷、领域特定限制、鲁棒性问题。附带 GitHub 资源库。有代码

8. Recursive Multi-Agent Systems (发布日：2026-04-28)

作者：Xiyuan Yang, Jiaru Zou, Pan Lu, James Zou 等

将递归/循环语言模型从单模型扩展到多 agent 系统。通过 RecursiveLink 模块实现跨 agent 潜在状态传递，内外双循环联合优化。9 个 benchmark 上平均准确率+8.3%，推理加速 1.2-2.4x，token 使用减少 35-76%。有代码

💡 我的判断

趋势判断：

✅ 潜在空间推理是 2026 年的主线。 ICLR + ACL + TMLR 的集中发表不是巧合——∇-Reasoner 和 Trajectories 论文从截然不同的角度（梯度下降 vs 表征分析）得出了 convergent 结论：推理发生在潜在表征空间，CoT 只是「转录」。
⚠️ 训练层面的影响： Tsallis loss 工作 (Paper 6) 指出了 RLVR 冷启动的根本问题，意味着未来的 reasoning post-training 可能不再一头扎进 RL，而是混合使用密度估计目标来突破冷启动。TEMPO (Paper 4) 的 EM 视角提示 TTT 需要周期性校准，单靠 self-reward 不可持续。
🔴 理论约束不容忽视： Barriers to Universal Reasoning (Paper 5) 从理论指出 CoT 的长度泛化能力存在 TC⁰ 极限。这为当前「越长 CoT 越好」的经验主义敲了警钟——架构层面的创新（而非仅靠推理时 compute scaling）是必要的。
🟡 实际落地建议：
- 训练阶段：考虑使用 GARL at q≈0.75（Tsallis loss）替代纯 RLVR 来避免冷启动
- 推理阶段：trajectory steering (Paper 3) 比重复采样开销更小，值得关注后期工程化
- 评估阶段：简单看 CoT 准确率不够，需要分离潜在状态表征质量（Paper 2 的建议）
🟢 长期判断： 「推理=潜在轨迹」范式一旦确立，将冲击 bench 设计、模型架构和 interpretability 方法。但转捩点在于能否在标准 eval 框架中统一三者（CoT 文本、潜在状态、计算量），这可能需要 1-2 年的标准化过程。

自动生成 | 2026-04-29 | 数据来源：arXiv cs.AI/cs.CL/cs.LG, Papers With Code

🧠 LLM 推理机制的范式重构：从浅层 CoT 到潜在空间优化

📌 核心论文解读

1. ∇-Reasoner: LLM Reasoning via Test-Time Gradient Descent in Latent Space ICLR 2026

2. LLM Reasoning Is Latent, Not the Chain of Thought Position Paper

3. LLM Reasoning as Trajectories: Step-Specific Representation Geometry ACL 2026 Main

4. TEMPO: Scaling Test-time Training for Large Reasoning Models

📚 相关工作

5. Barriers to Universal Reasoning With Transformers (发布日：2026-04-28)

6. How Fast Should a Model Commit to Supervision? (发布日：2026-04-28)

7. Large Language Model Reasoning Failures TMLR 2026 Survey

8. Recursive Multi-Agent Systems (发布日：2026-04-28)

💡 我的判断