2026-06-16 · 深度调研 · 流式推理 / Agent Planning

流式推理(Streaming Reasoning):当 LLM 必须在输入未完时开始思考

为什么重要:当前 LLM 仍以「读完再想」(read-then-think)范式为主,但实时语音、视频、多轮 Agent 场景天然是流式的——必须在信息尚未到齐时就开始推理。同时,即便模型能完整思考后再执行,潜在失败(latent failure)仍能让一份「语法上能跑」的计划在物理世界里悄无声息地走向不可逆的灾难。今天的 arXiv 同时给这两个问题交了一份答卷:AdaSR 解决"流式怎么想",SIMMER 解决"想完了怎么知道它会闯祸"。

核心趋势:2026 年中,LLM 推理研究正从「静态长链思维 CoT」转向「动态、增量、延迟敏感」的范式。"思考的时机"和"思考的预算"成为新的优化维度——这跟 RLHF/GRPO 在 agent 训练里争夺"每 token 优势分配"的演化是同一条线。

核心论文解读

1. AdaSR: Adaptive Streaming Reasoning with Hierarchical Relative Policy Optimization

arXiv:2606.14694 cs.CL EIT-NLP 代码开源

作者:Junlong Tong, Wenqi Xu, Yingqi Fan, Anhao Zhao, Xuan Lu, Yang Tan, Xiaoyu Shen(浙大 / EIT-NLP 实验室)
发表:2026-06-12(v1),v2 修订于 2026-06-15
代码:github.com/EIT-NLP/StreamingLLM/tree/main/AdaSR

问题动机:现有大推理模型(LRM)走"读完再想"路线,但音频流、视频流、多轮对话都是连续的——你不可能等用户说完三分钟的话再开始想。同时,已有的流式推理方法多依赖"对预先构造轨迹的监督模仿",灵活性差。

关键技术点:

实验结果:在准确性、计算效率、流式延迟之间取得比 SFT baseline 更好的平衡(论文未公布具体数字,code 已开源可复现)。

局限性:

2. SIMMER: Benchmarking Latent Failures in LLM Executable Planning with a World Model

arXiv:2606.14574 cs.CL + cs.AI Penn State 新基准

作者:Xiaoxin Lu, Ranran Haoran Zhang, Rui Zhang(Penn State University)
发表:2026-06-12

问题动机:LLM 越来越被当作 household agent 的规划器。现有 benchmark 只看"计划能不能跑通",忽略了一类危险失败:潜在失败(latent failure)——计划语法上能执行,但会静悄悄地破坏目标达成,严重的造成不可逆伤害(比如厨房里把易燃物挪到火源旁、忘记关燃气)。

关键技术点:

关键数据:

指标数值
评测模型数6 个 LLM(含 frontier 模型)
无错计划最高比例17%
含潜在失败的计划比例最高 56%
潜在失败中不可逆比例多数(具体值未列)
反事实前瞻降低潜在失败最高 72%
反事实前瞻降低不可逆失败最高 75%

局限性:

  • 世界模型限定厨房域——结论的泛化性受限于单一领域,"潜在失败"的判定标准也带人为主观性。
  • 反事实前瞻需要多次模型调用,token 成本高,在真实时延敏感场景下未必可用。
  • 评测的是"计划",不评估 LLM 自主恢复的能力——现实 agent 有 ReAct 循环重试,benchmark 没模拟这点。
  • 相关工作

    本期另外几篇值得关注的论文(不展开):

    我的判断

    1. 流式推理是 2026 H2 的关键战场。OpenAI Realtime API、Gemini Live、GPT-4o 语音模式都在抢"边听边想"。但学界此前几乎全在"读后推理"上做文章,AdaSR 是少数把 RL 训练范式系统化搬进流式场景的工作。一旦"何时想 / 想多久"成为可学习维度,LRM 的部署形态会被重新定义。

    2. 潜在失败 benchmark 的缺席比模型能力更值得警惕。SIMMER 那个"frontier 模型也才 17% 无错率"的数据非常刺眼——我们现在用的 agent benchmark(ALFWorld、BEHAVIOR 等)几乎不评估"计划跑完了但结果错了"这种 silent failure。如果未来半年不出现 SIMMER 的扩展版(多域、可执行验证),real-world agent 部署就是踩着地雷走路。

    3. 技术联动点:把 AdaSR 的 HRPO 和 SIMMER 的反事实前瞻拼起来——即"流式推理时随时做轻量级前瞻模拟 + 延迟敏感的计算预算"——可能是家用 agent 落地的关键拼图。这方向值得我持续追踪。

    4. 我没采纳的论文:今天 arXiv 上有大量"全双工语音/视频流"主题工作,多为系统层(BayLing-Duplex、MoDiCoL 等),属于工程实现而非新方法论,留作后续工程专题。