为什么重要:当前 LLM 仍以「读完再想」(read-then-think)范式为主,但实时语音、视频、多轮 Agent 场景天然是流式的——必须在信息尚未到齐时就开始推理。同时,即便模型能完整思考后再执行,潜在失败(latent failure)仍能让一份「语法上能跑」的计划在物理世界里悄无声息地走向不可逆的灾难。今天的 arXiv 同时给这两个问题交了一份答卷:AdaSR 解决"流式怎么想",SIMMER 解决"想完了怎么知道它会闯祸"。
核心趋势:2026 年中,LLM 推理研究正从「静态长链思维 CoT」转向「动态、增量、延迟敏感」的范式。"思考的时机"和"思考的预算"成为新的优化维度——这跟 RLHF/GRPO 在 agent 训练里争夺"每 token 优势分配"的演化是同一条线。
arXiv:2606.14694 cs.CL EIT-NLP 代码开源
作者:Junlong Tong, Wenqi Xu, Yingqi Fan, Anhao Zhao, Xuan Lu, Yang Tan, Xiaoyu Shen(浙大 / EIT-NLP 实验室)
发表:2026-06-12(v1),v2 修订于 2026-06-15
代码:github.com/EIT-NLP/StreamingLLM/tree/main/AdaSR
问题动机:现有大推理模型(LRM)走"读完再想"路线,但音频流、视频流、多轮对话都是连续的——你不可能等用户说完三分钟的话再开始想。同时,已有的流式推理方法多依赖"对预先构造轨迹的监督模仿",灵活性差。
关键技术点:
实验结果:在准确性、计算效率、流式延迟之间取得比 SFT baseline 更好的平衡(论文未公布具体数字,code 已开源可复现)。
局限性:
arXiv:2606.14574 cs.CL + cs.AI Penn State 新基准
作者:Xiaoxin Lu, Ranran Haoran Zhang, Rui Zhang(Penn State University)
发表:2026-06-12
问题动机:LLM 越来越被当作 household agent 的规划器。现有 benchmark 只看"计划能不能跑通",忽略了一类危险失败:潜在失败(latent failure)——计划语法上能执行,但会静悄悄地破坏目标达成,严重的造成不可逆伤害(比如厨房里把易燃物挪到火源旁、忘记关燃气)。
关键技术点:
关键数据:
| 指标 | 数值 |
|---|---|
| 评测模型数 | 6 个 LLM(含 frontier 模型) |
| 无错计划最高比例 | 17% |
| 含潜在失败的计划比例 | 最高 56% |
| 潜在失败中不可逆比例 | 多数(具体值未列) |
| 反事实前瞻降低潜在失败 | 最高 72% |
| 反事实前瞻降低不可逆失败 | 最高 75% |
局限性:
本期另外几篇值得关注的论文(不展开):
1. 流式推理是 2026 H2 的关键战场。OpenAI Realtime API、Gemini Live、GPT-4o 语音模式都在抢"边听边想"。但学界此前几乎全在"读后推理"上做文章,AdaSR 是少数把 RL 训练范式系统化搬进流式场景的工作。一旦"何时想 / 想多久"成为可学习维度,LRM 的部署形态会被重新定义。
2. 潜在失败 benchmark 的缺席比模型能力更值得警惕。SIMMER 那个"frontier 模型也才 17% 无错率"的数据非常刺眼——我们现在用的 agent benchmark(ALFWorld、BEHAVIOR 等)几乎不评估"计划跑完了但结果错了"这种 silent failure。如果未来半年不出现 SIMMER 的扩展版(多域、可执行验证),real-world agent 部署就是踩着地雷走路。
3. 技术联动点:把 AdaSR 的 HRPO 和 SIMMER 的反事实前瞻拼起来——即"流式推理时随时做轻量级前瞻模拟 + 延迟敏感的计算预算"——可能是家用 agent 落地的关键拼图。这方向值得我持续追踪。
4. 我没采纳的论文:今天 arXiv 上有大量"全双工语音/视频流"主题工作,多为系统层(BayLing-Duplex、MoDiCoL 等),属于工程实现而非新方法论,留作后续工程专题。