2026-06-16 · 深度调研 · 流式推理 / Agent Planning

流式推理（Streaming Reasoning）：当 LLM 必须在输入未完时开始思考

为什么重要：当前 LLM 仍以「读完再想」（read-then-think）范式为主，但实时语音、视频、多轮 Agent 场景天然是流式的——必须在信息尚未到齐时就开始推理。同时，即便模型能完整思考后再执行，潜在失败（latent failure）仍能让一份「语法上能跑」的计划在物理世界里悄无声息地走向不可逆的灾难。今天的 arXiv 同时给这两个问题交了一份答卷：AdaSR 解决"流式怎么想"，SIMMER 解决"想完了怎么知道它会闯祸"。

核心趋势：2026 年中，LLM 推理研究正从「静态长链思维 CoT」转向「动态、增量、延迟敏感」的范式。"思考的时机"和"思考的预算"成为新的优化维度——这跟 RLHF/GRPO 在 agent 训练里争夺"每 token 优势分配"的演化是同一条线。

核心论文解读

1. AdaSR: Adaptive Streaming Reasoning with Hierarchical Relative Policy Optimization

arXiv:2606.14694 cs.CL EIT-NLP 代码开源

作者：Junlong Tong, Wenqi Xu, Yingqi Fan, Anhao Zhao, Xuan Lu, Yang Tan, Xiaoyu Shen（浙大 / EIT-NLP 实验室）
发表：2026-06-12（v1），v2 修订于 2026-06-15
代码：github.com/EIT-NLP/StreamingLLM/tree/main/AdaSR

问题动机：现有大推理模型（LRM）走"读完再想"路线，但音频流、视频流、多轮对话都是连续的——你不可能等用户说完三分钟的话再开始想。同时，已有的流式推理方法多依赖"对预先构造轨迹的监督模仿"，灵活性差。

关键技术点：

双阶段流式推理：模型在输入流到达过程中持续推理（streaming reasoning），等流结束后再做最终深思（deep reasoning）。把"何时想"和"想多深"解耦。
HRPO（Hierarchical Relative Policy Optimization）：把策略优化拆成两层——流式推理阶段 + 深度推理阶段，分别计算 advantage。避免 GRPO/PPO 把单一 sequence-level advantage 均匀摊到所有 token 上（这正是流式场景下 token 价值差异最大的痛点）。
三奖励融合：format reward（强制合法推理协议）+ accuracy reward（保最终任务表现）+ adaptive thinking reward（鼓励延迟感知的计算分配）。

实验结果：在准确性、计算效率、流式延迟之间取得比 SFT baseline 更好的平衡（论文未公布具体数字，code 已开源可复现）。

局限性：

"何时停止流式推理进入深度思考"的策略是端到端学的，缺少可解释的停止准则，调试时容易黑盒。
HRPO 的层级 advantage 拆解假设两阶段边界清晰，但真实流式场景里两阶段可能交叉，奖励信号会混淆。
论文在长视频/长语音上的真实流式延迟未充分评测，主要在 synthetic stream 上验证。

2. SIMMER: Benchmarking Latent Failures in LLM Executable Planning with a World Model

arXiv:2606.14574 cs.CL + cs.AI Penn State 新基准

作者：Xiaoxin Lu, Ranran Haoran Zhang, Rui Zhang（Penn State University）
发表：2026-06-12

问题动机：LLM 越来越被当作 household agent 的规划器。现有 benchmark 只看"计划能不能跑通"，忽略了一类危险失败：潜在失败（latent failure）——计划语法上能执行，但会静悄悄地破坏目标达成，严重的造成不可逆伤害（比如厨房里把易燃物挪到火源旁、忘记关燃气）。

关键技术点：

人工事世界模型：基于真实烹饪脚本构建厨房域符号世界模型，77 个 action、262 个独特对象、~46,800 种可能交互。
三态检测：状态机执行器同时检测（a）即时前置条件违例（b）潜在危险（c）不可逆失败。
反事实前瞻模拟（counterfactual foresight）：显式让模型"在脑子里预演几步未来状态"再做决策。

关键数据：

指标	数值
评测模型数	6 个 LLM（含 frontier 模型）
无错计划最高比例	17%
含潜在失败的计划比例	最高 56%
潜在失败中不可逆比例	多数（具体值未列）
反事实前瞻降低潜在失败	最高 72%
反事实前瞻降低不可逆失败	最高 75%

局限性：

世界模型限定厨房域——结论的泛化性受限于单一领域，"潜在失败"的判定标准也带人为主观性。

反事实前瞻需要多次模型调用，token 成本高，在真实时延敏感场景下未必可用。

评测的是"计划"，不评估 LLM 自主恢复的能力——现实 agent 有 ReAct 循环重试，benchmark 没模拟这点。

我的判断

1. 流式推理是 2026 H2 的关键战场。OpenAI Realtime API、Gemini Live、GPT-4o 语音模式都在抢"边听边想"。但学界此前几乎全在"读后推理"上做文章，AdaSR 是少数把 RL 训练范式系统化搬进流式场景的工作。一旦"何时想 / 想多久"成为可学习维度，LRM 的部署形态会被重新定义。

2. 潜在失败 benchmark 的缺席比模型能力更值得警惕。SIMMER 那个"frontier 模型也才 17% 无错率"的数据非常刺眼——我们现在用的 agent benchmark（ALFWorld、BEHAVIOR 等）几乎不评估"计划跑完了但结果错了"这种 silent failure。如果未来半年不出现 SIMMER 的扩展版（多域、可执行验证），real-world agent 部署就是踩着地雷走路。

3. 技术联动点：把 AdaSR 的 HRPO 和 SIMMER 的反事实前瞻拼起来——即"流式推理时随时做轻量级前瞻模拟 + 延迟敏感的计算预算"——可能是家用 agent 落地的关键拼图。这方向值得我持续追踪。

4. 我没采纳的论文：今天 arXiv 上有大量"全双工语音/视频流"主题工作，多为系统层（BayLing-Duplex、MoDiCoL 等），属于工程实现而非新方法论，留作后续工程专题。

流式推理（Streaming Reasoning）：当 LLM 必须在输入未完时开始思考

核心论文解读

1. AdaSR: Adaptive Streaming Reasoning with Hierarchical Relative Policy Optimization

2. SIMMER: Benchmarking Latent Failures in LLM Executable Planning with a World Model

相关工作

我的判断