为什么重要
LLM 的推理能力是当前最核心的瓶颈。今天 arXiv 上线了两篇从不同角度攻击同一问题的论文:一篇通过显式化搜索树结构让模型更好利用搜索历史,另一篇通过搜索智能体轨迹构造长上下文训练数据并用 rubrics 做细粒度奖励。两者共同指向一个趋势——用结构化搜索替代隐式推理链是下一阶段的核心方向。
cs.AI Improving LLM Reasoning with Explicitly Structured Search Histories
作者: Liwei Kang et al. · arXiv: 2605.31492 · 16 pages, 3 figures
核心发现:LLM 在推理时生成的中间 trace 本质上是一个线性化的搜索树——模型扩展部分解、发现失败后回溯、尝试替代方案。理论上看,这种 trace-conditioned 策略应该比只看当前局部状态的 heuristic search 更强。但实验结果显示,原始搜索历史的原始访问并不足以可靠超越 heuristic search。
原因定位:在 LLM 推理 trace 中,底层搜索树是隐式表示的。当模型回溯或切换分支时,trace 没有显式标注"回到哪个搜索状态"。作者提出了 LinTree 方法——在 trace 中加入简单的 parent pointer 来显式表示线性化树结构,结果在 Blocks World、Navigation、Sokoban 三个受控推理环境中,任务性能和搜索效率都显著优于隐式推理模型和 LLM-heuristic-guided search。
关键洞察:搜索历史的价值不在于"更多 token",而在于结构信息。加上 parent pointer 这种几乎零成本的标注,就能让模型有效利用搜索树拓扑——这是对 Chain-of-Thought 等隐式推理方法的重要补充。
局限性:实验限于三个受控环境(Blocks World, Navigation, Sokoban),尚未在真实世界推理任务上验证。parent pointer 方案在开放式推理(如数学证明)中的适用性有待确认。
cs.CL cs.AI cs.LG Learning Long-Context Reasoning from Search Agent Trajectories with Rubric Rewards
作者: Nianyi Lin et al. · arXiv: 2605.31584 · 代码/数据/模型开源
核心问题:长上下文推理中,LLM 经常无法在大量干扰内容中定位和整合关键信息。现有 RLVR(带可验证奖励的强化学习)方法有两个不足:
LongTraceRL 的解决方案:
关键洞察:positive-only rubric reward 是一个精巧的设计选择——不给错误答案过程奖励,避免了模型通过"写出好看但错误的推理链"来 hack reward。这个策略平衡了过程监督和结果验证两种范式。
实验结果:在 3 个推理 LLM(4B–30B)和 5 个长上下文 benchmark 上,LongTraceRL 一致超越强基线,且鼓励了全面、证据支撑的推理。
局限性:依赖 KG 随机游走和搜索智能体轨迹进行数据构造,泛化到非事实性推理任务(如创意写作、开放域论证)需要不同的数据生成策略。
| 维度 | LinTree (2605.31492) | LongTraceRL (2605.31584) |
|---|---|---|
| 核心思路 | 推理时表示增强 | 训练时信号增强 |
| 方法 | Parent pointer 显式化搜索树 | Rubric reward + 搜索轨迹数据 |
| 作用阶段 | Inference-time | Training-time (RL) |
| 搜索视角 | 内部搜索树的结构化 | 外部搜索行为的数据化 |
| 模型规模 | 未明确(受控环境实验) | 4B–30B |
| 代码开源 | 未提及 | ✅ 是 |
统一视角:两篇论文共同揭示——将搜索行为结构化(无论是内部推理树还是外部智能体轨迹)是提升 LLM 推理能力的有效范式。LinTree 从表示层面让模型"知道自己在搜索什么",LongTraceRL 从训练层面让模型"学会怎么搜索"。两者的结合——用 LinTree 的显式树结构作为 LongTraceRL 的 rollout 表示——是一个潜力巨大的方向。
1. "结构化搜索"正在成为 LLM 推理的统一语言。从 CoT → ToT → GoT 到现在 LinTree 的 parent pointer 和 LongTraceRL 的 rubric reward,一条清晰的主线是:越显式的搜索结构 = 越好的推理能力。这个方向还有大量空间:如何自动学习最优搜索结构?如何在不同推理域之间迁移结构知识?
2. LongTraceRL 的 rubric reward 有更广泛的应用潜力。Positive-only + entity-level 的细粒度奖励设计,本质上是给 RL 训练提供了"中间层 ground truth"。这个思路可以推广到任何有结构化中间表示的推理任务——代码生成(AST 节点匹配)、数学证明(推导步骤验证)、科学推理(实体关系链)。
3. 最大的开放问题:隐式推理 vs 显式搜索的边界在哪里?LinTree 证明了显式结构化有帮助,但人类推理大量依赖隐式直觉。过度结构化可能导致搜索空间爆炸或失去 LLM 本身学到的隐式 pattern。如何根据问题难度动态切换隐式/显式推理模式,是一个值得研究的问题。
注意:LinTree 实验在受控环境中进行,LongTraceRL 依赖 KG 生成的问题。两者都需要在更真实、开放的任务上验证。尤其是 LongTraceRL 的 rubric reward 依赖 golden entities,在实际应用中如何获取这些中间 ground truth 是工程落地的关键瓶颈。
— 本期选择深度主题而非广撒网,聚焦两条互补的技术路径 —