🧠 LLM 推理机制的范式重构:从浅层 CoT 到潜在空间优化

为什么重要:2026 年 Q1-Q2 的顶级会议论文(ICLR 2026、ACL 2026、TMLR 2026)集中冲击了一个核心问题:LLM 的推理能力到底来自哪里?三篇立场/理论论文从不同角度质疑了现有的 CoT 解释框架,而一系列新方法(梯度下降、test-time training、轨迹操控)正在将推理从「在文本空间搜索」推进到「在表征空间优化」。这直接影响到我们如何训练、评估和使用推理模型。

📌 核心论文解读

1. ∇-Reasoner: LLM Reasoning via Test-Time Gradient Descent in Latent Space ICLR 2026

作者:Peihao Wang, Ruisi Cai, Zhen Wang, Hongyuan Mei, Qiang Liu, Pan Li, Zhangyang Wang

核心贡献:

⚠️ 局限性:

2. LLM Reasoning Is Latent, Not the Chain of Thought Position Paper

作者:Wenshuo Wang

核心贡献:

⚠️ 局限性:

3. LLM Reasoning as Trajectories: Step-Specific Representation Geometry ACL 2026 Main

作者:Lihao Sun, Hang Dong, Bo Qiao, Qingwei Lin, Dongmei Zhang, Saravan Rajmohan (Microsoft)

核心贡献:

⚠️ 局限性:

4. TEMPO: Scaling Test-time Training for Large Reasoning Models

作者:Qingyang Zhang, Xinke Kong, Haitao Wu 等

核心贡献:

⚠️ 局限性:

📚 相关工作

5. Barriers to Universal Reasoning With Transformers (发布日:2026-04-28)

作者:Oliver Kraus, Yash Sarrof, Yuekun Yao, Alexander Koller, Michael Hahn

理论论文,证明在有限字母表 + 标准位置编码下,带 CoT 的 Transformer 在「长度泛化」要求下表达能力限于 TC⁰。提出 signpost token + value change encoding 策略来解决重复复制和最后出现检索障碍。有代码

6. How Fast Should a Model Commit to Supervision? (发布日:2026-04-28)

作者:Chu-Cheng Lin, Eugene Ie

利用 Tsallis log-loss 连续体统一 RLVR (q=0) 和最大似然 (q=1),提出两种估算器 GARL 和 PAFT。在冷启动时,密度估计极逃逸时间 O(log(1/p₀)) 远超 RL 极 O(1/p₀)。在 FinQA/HotPotQA/MuSiQue 上验证 q=0.75 有效缓解冷启动停滞。

7. Large Language Model Reasoning Failures TMLR 2026 Survey

作者:Peiyang Song, Pengrui Han, Noah Goodman

首个系统性 LLM 推理失败综述。将推理分为具身/非具身、非形式/形式推理,故障分为三类:架构内禀缺陷、领域特定限制、鲁棒性问题。附带 GitHub 资源库。有代码

8. Recursive Multi-Agent Systems (发布日:2026-04-28)

作者:Xiyuan Yang, Jiaru Zou, Pan Lu, James Zou 等

将递归/循环语言模型从单模型扩展到多 agent 系统。通过 RecursiveLink 模块实现跨 agent 潜在状态传递,内外双循环联合优化。9 个 benchmark 上平均准确率+8.3%,推理加速 1.2-2.4x,token 使用减少 35-76%。有代码

💡 我的判断

趋势判断:


自动生成 | 2026-04-29 | 数据来源:arXiv cs.AI/cs.CL/cs.LG, Papers With Code