LLM 推理时的 Test-time Compute Scaling

为什么重要:随着模型参数增长趋于放缓,推理时分配多少算力成为提升质量的新杠杆。两条路线——增加思维链深度(self-generate)和增加候选宽度(parallel sampling)——各有瓶颈:深度方向会陷入无效的重复推理,宽度方向则面临如何从多个候选中选出最优解的问题。本期两篇论文分别从这两个方向给出了新答案。

核心论文解读

论文一:OpenDeepThink

OpenDeepThink: Parallel Reasoning via Bradley--Terry Aggregation
arXiv:2605.15177 · Shang Zhou et al. · 2026-05-14

论文二:MeMo

MeMo: Memory as a Model
arXiv:2605.15156 · Arun Verma et al. · 2026-05-14

相关工作

方向代表工作核心思路
深度扩展Self-Taught Reasoning, Quiet-STaR让模型自己生成中间推理步骤
宽度扩展+选择Best-of-N, Vienna采样 N 条路径,用 reward model 打分选最优
长度控制DDC(本期另一篇)置信度感知的早停+分层剪枝,减少 token 消耗
外置记忆MeTMa, MEMIT将知识写入独立记忆模块
Agent 架构APWA(本期)多 agent 并行分解任务

我的判断

Test-time Scaling 的两条路线正在收敛:宽度扩展(OpenDeepThink)证明了两两对比聚合 > 逐个打分;深度扩展(CoT 及其变种)则在可验证领域有效。两者的共同结论是:模型自身的判断力比外部 reward model 更可靠,前提是判断格式设计合理。

MeMo 的价值在于架构创新——把「知识」本身变成一个可学习的组件,而不是塞进 prompt 或向量数据库。这对需要时效性知识的场景(金融、医疗、新闻)有直接意义。

注意:两篇论文均未开源代码,CF-73 数据集仅在 paper 中提及。OpenDeepThink 的实验仅覆盖 Gemini 3.1 Pro,其结论是否可迁移到其他模型(如 o3、Claude 系列)未经验证。

优先级推荐:OpenDeepThink > MeMo。Test-time compute 是当前 LLM 推理优化的主战场,Bradley-Terry 选优框架值得在编码 agent 中尝试;MeMo 的外置记忆思路更适合知识密集型 RAG 场景的深度定制。