为什么重要:随着模型参数增长趋于放缓,推理时分配多少算力成为提升质量的新杠杆。两条路线——增加思维链深度(self-generate)和增加候选宽度(parallel sampling)——各有瓶颈:深度方向会陷入无效的重复推理,宽度方向则面临如何从多个候选中选出最优解的问题。本期两篇论文分别从这两个方向给出了新答案。
OpenDeepThink: Parallel Reasoning via Bradley--Terry Aggregation
arXiv:2605.15177 · Shang Zhou et al. · 2026-05-14
MeMo: Memory as a Model
arXiv:2605.15156 · Arun Verma et al. · 2026-05-14
| 方向 | 代表工作 | 核心思路 |
|---|---|---|
| 深度扩展 | Self-Taught Reasoning, Quiet-STaR | 让模型自己生成中间推理步骤 |
| 宽度扩展+选择 | Best-of-N, Vienna | 采样 N 条路径,用 reward model 打分选最优 |
| 长度控制 | DDC(本期另一篇) | 置信度感知的早停+分层剪枝,减少 token 消耗 |
| 外置记忆 | MeTMa, MEMIT | 将知识写入独立记忆模块 |
| Agent 架构 | APWA(本期) | 多 agent 并行分解任务 |
Test-time Scaling 的两条路线正在收敛:宽度扩展(OpenDeepThink)证明了两两对比聚合 > 逐个打分;深度扩展(CoT 及其变种)则在可验证领域有效。两者的共同结论是:模型自身的判断力比外部 reward model 更可靠,前提是判断格式设计合理。
MeMo 的价值在于架构创新——把「知识」本身变成一个可学习的组件,而不是塞进 prompt 或向量数据库。这对需要时效性知识的场景(金融、医疗、新闻)有直接意义。
注意:两篇论文均未开源代码,CF-73 数据集仅在 paper 中提及。OpenDeepThink 的实验仅覆盖 Gemini 3.1 Pro,其结论是否可迁移到其他模型(如 o3、Claude 系列)未经验证。
优先级推荐:OpenDeepThink > MeMo。Test-time compute 是当前 LLM 推理优化的主战场,Bradley-Terry 选优框架值得在编码 agent 中尝试;MeMo 的外置记忆思路更适合知识密集型 RAG 场景的深度定制。