LLM 推理时的 Test-time Compute Scaling

为什么重要：随着模型参数增长趋于放缓，推理时分配多少算力成为提升质量的新杠杆。两条路线——增加思维链深度（self-generate）和增加候选宽度（parallel sampling）——各有瓶颈：深度方向会陷入无效的重复推理，宽度方向则面临如何从多个候选中选出最优解的问题。本期两篇论文分别从这两个方向给出了新答案。

核心论文解读

论文一：OpenDeepThink

OpenDeepThink: Parallel Reasoning via Bradley--Terry Aggregation
arXiv:2605.15177 · Shang Zhou et al. · 2026-05-14

解决什么问题：Test-time compute scaling 的宽度扩展存在选择瓶颈——从多个候选推理路径中挑最优解时，逐个打分（pointwise judging）存在噪声和偏好偏差。
核心方法：引入 Bradley-Terry 统计模型，将 LLM 视为两两对比（pairwise comparison）的裁判。每次迭代让 LLM 随机抽取候选对进行对比，用 Bradley-Terry 将所有两两胜负投票聚合为全局排名，保留排名靠前的候选，对排名前 3/4 的候选基于对比过程中的自然语言 critique 进行变异（mutation），淘汰底部 1/4。
关键结果：在 8 轮 LLM 调用后（~27 分钟 wall-clock），Gemini 3.1 Pro 的 Codeforces Elo 提升 +405 分。HLE 多领域基准测试中，收益集中在客观可验证领域（数学/代码），主观领域无提升甚至逆转。
数据集：发布 CF-73，73 道专家标注的 Codeforces 问题，国际特级大师（International Grandmaster）评分，本地评测与官方判决一致率达 99%。
局限性：依赖可验证的 ground truth——主观开放域问题效果存疑；每轮需要多步 LLM 调用（8 轮 × 多对比较），成本显著；论文未开源代码。

论文二：MeMo

MeMo: Memory as a Model
arXiv:2605.15156 · Arun Verma et al. · 2026-05-14

解决什么问题：LLM 知识冻结后无法更新，但高效融入新知识（时效性领域知识、垂直行业数据）一直是难题。现有 RAG 有检索噪声，全量微调代价高且有灾难性遗忘。
核心方法：将知识编码进独立的 Memory Model（一个可训练的 lightweight 模型），主 LLM 参数完全不动。Memory Model 学习跨文档关系、对检索噪声鲁棒，且推理时检索代价与语料库大小解耦（常数时间）。对闭源模型也适用（无需 logits 访问）。
关键结果：在 BrowseComp-Plus、NarrativeQA、MuSiQue 三个基准上均超过现有方法。训练一次，可插拔到任意 LLM。
局限性：Memory Model 本身需要训练，有额外训练成本；论文未公布代码。

方向	代表工作	核心思路
深度扩展	Self-Taught Reasoning, Quiet-STaR	让模型自己生成中间推理步骤
宽度扩展+选择	Best-of-N, Vienna	采样 N 条路径，用 reward model 打分选最优
长度控制	DDC（本期另一篇）	置信度感知的早停+分层剪枝，减少 token 消耗
外置记忆	MeTMa, MEMIT	将知识写入独立记忆模块
Agent 架构	APWA（本期）	多 agent 并行分解任务

我的判断

Test-time Scaling 的两条路线正在收敛：宽度扩展（OpenDeepThink）证明了两两对比聚合 > 逐个打分；深度扩展（CoT 及其变种）则在可验证领域有效。两者的共同结论是：模型自身的判断力比外部 reward model 更可靠，前提是判断格式设计合理。

MeMo 的价值在于架构创新——把「知识」本身变成一个可学习的组件，而不是塞进 prompt 或向量数据库。这对需要时效性知识的场景（金融、医疗、新闻）有直接意义。

注意：两篇论文均未开源代码，CF-73 数据集仅在 paper 中提及。OpenDeepThink 的实验仅覆盖 Gemini 3.1 Pro，其结论是否可迁移到其他模型（如 o3、Claude 系列）未经验证。

优先级推荐：OpenDeepThink > MeMo。Test-time compute 是当前 LLM 推理优化的主战场，Bradley-Terry 选优框架值得在编码 agent 中尝试；MeMo 的外置记忆思路更适合知识密集型 RAG 场景的深度定制。

LLM 推理时的 Test-time Compute Scaling

核心论文解读

论文一：OpenDeepThink

论文二：MeMo

相关工作

我的判断