OpenDeepThink:群体推理与 Bradley-Terry 聚合——测试时计算的新范式

2026-05-16 · 覆盖 ArXiv cs.AI / cs.CL 2026.05.14–15 最新提交

为什么重要

测试时计算扩展(test-time compute scaling)是当前 LLM 推理能力提升最活跃的前沿方向。OpenAI o-series 和 Google Gemini Thinking 都靠延长单条推理链来提升性能。但并行采样多条推理链再择优的"广度扩展"路线一直卡在选择瓶颈上——没有 ground-truth 验证器时如何挑出最好的那个?OpenDeepThink 用 Bradley-Terry 配对比较模型取代点估计打分,给出了一个优雅的答案:让 LLM 两两比较自己的候选答案,用统计排名取代单点评分。在 Gemini 3.1 Pro 上直接拉升 +405 Codeforces Elo,模型越强效果越好。这可能是群体智能范式在单模型推理上的第一次严肃落地。

核心贡献:OpenDeepThink 证明了基于 Bradley-Terry 的群体选择机制能在不修改模型权重的前提下,将 LLM 推理能力提升到超过单个最优 trace 的水平,且方法对模型无感——弱的和强的模型都能用,切换无需重新调参。

论文核心解读

OpenDeepThink: Parallel Reasoning via Bradley–Terry Aggregation

cs.AI 2026-05-14 Shang Zhou et al.

arXiv: 2605.15177 · 19 pages, 4 figures

1. 问题:并行推理的选择瓶颈

现有 test-time compute 方法主要有两条路:

挑候选的传统方法有三类,各有硬伤:

OpenDeepThink 的关键洞察:LLM 打分不可靠,但 LLM 做两两比较(A 比 B 好吗?)要可靠得多。这与人类评审的发现一致——配对比较比绝对评分更稳定。

2. 方法:Bradley-Terry 群体进化

管道分为四个阶段,循环迭代:

阶段操作作用
① 生成LLM 并行产生 N 条候选推理链种群初始化
② 比较随机配对,LLM 判断每对中哪个更好,附带自然语言 critique产生相对排序信号
③ 聚合Bradley-Terry 模型从配对胜负记录中估计全局 skill rating统计排名,压制噪声
④ 进化保留前 3/4,用比较阶段产出的 critique 做 mutation;淘汰末 1/4迭代改进种群质量

Bradley-Terry 模型的核心公式很简单:

P(i 胜过 j) = exp(θ_i) / (exp(θ_i) + exp(θ_j))

其中 θ_i 是候选人 i 的"能力分值"。从所有配对比较的胜负结果中,用最大似然估计出每个人的 θ,得到全局排名。这个过程对个别噪声比较天然鲁棒——少数误判不影响整体排序。

3. 实验:+405 Elo,27 分钟墙钟

Codeforces 竞赛编程:

多领域 HOLMES Benchmark (HLE):

关键警示:HLE 的主观域退化说明 Bradly-Terry 聚合的有效性取决于 judge 本身在该领域的校准质量。在 judge 不可靠的领域,种群进化会把偏见放大而不是消除。这是群体智能方法的一个本质脆弱点。

4. 额外贡献:CF-73 数据集

论文同时发布了 CF-73,73 道由国际象棋大师(International Grandmaster)人工标注的 Codeforces 竞赛题,本地自动评测与官方判题系统一致性达 99%。这对 Codeforces 方向的 LLM 评测是一个高质量补充。

5. 局限性

相关工作

SDAR:用 Self-Distillation 驯服 Agent RL

cs.LG 2026-05-14 Zhengxi Lu et al. (浙江大学)

arXiv: 2605.15155

RL 作为 LLM agent 后训练范式已趋于主流,但轨迹级奖励信号对长程多轮交互太粗粒度。SDAR 将 On-Policy Self-Distillation 作为带门控的辅助目标注入 GRPO:当 teacher 分支(有权访问特权上下文)与 student 在 token 级别产生正 gap 时强化蒸馏,teacher 拒绝时用 sigmoid 门软衰减。

结果亮点:Qwen2.5/Qwen3 家族上,ALFWorld +9.4%、Search-QA +7.0%、WebShop-Acc +10.2%,且避免了 naive GRPO+OPSD 的崩塌问题。

MeMo:把 Memory 训练成独立模型

cs.CL 2026-05-14 Ryan Quek et al. (MIT / NUS)

arXiv: 2605.15156

Daniela Rus 和 Armando Solar-Lezama 组的工作。不微调 LLM 本身,而是训练一个独立的 memory model 编码新知识,LLM 保持冻结。优点是:(a) 捕获跨文档关系 (b) 对检索噪声鲁棒 (c) 无需访问 LLM 权重或 logits,闭源模型也能用 (d) 推理时检索成本与知识库大小无关。在 BrowseComp-Plus、NarrativeQA、MuSiQue 上取得强结果。

MetaBackdoor:Positional Encoding 成为 LLM 后门攻击面

cs.CR 2026-05-14 Rui Wen, Mark Russinovich et al. (Microsoft)

arXiv: 2605.15172

发现了一个此前完全被忽视的 LLM 攻击面:位置编码。传统后门攻击需要修改 prompt 文本内容(插入特定词/短语),MetaBackdoor 证明仅靠输入长度就能触发后门——因为 Transformer 必然编码位置信息,序列长度本身形成可被利用的触发信号。更危险的是,多轮对话中自然累积的上下文长度可以让对话"漂移"进触发区,无需攻击者任何显式操作。

安全含义:现有后门检测方法全部依赖文本内容分析,对位置触发完全无效。这要求重新思考 LLM 的安全防御体系。

"Is Grep All You Need?":Agent 检索策略的实证比较

cs.CL 2026-05-14 Sahil Sen et al.

arXiv: 2605.15184

在 LongMemEval 116 题上系统比较 grep vs 向量检索在 agentic search 中的表现,覆盖 4 个 harness(Chronos、Claude Code、Codex、Gemini CLI)。核心发现:grep 普遍优于向量检索——简单关键词匹配在 agent 场景下比语义检索更可靠。但结果也强烈依赖 harness 和 tool-calling 范式,同一份会话数据在不同 harness 下得分差异显著。这对 agent 框架设计者有直接工程指导价值。

我的判断

OpenDeepThink 的方向是对的,但路径需要优化。

1. Bradley-Terry 聚合作为选择机制有理论美感——它不依赖额外训练、对噪声鲁棒、天然支持迭代改进。这是测试时计算"广度扩展"路线上我见过的最干净的设计之一。

2. 但 27 分钟的 wall-clock 让它在实际产品中毫无竞争力。 如果对比 o3 的一条深度推理链只需几秒到几十秒,OpenDeepThink 的 latency 劣势太大。这个方向的价值更可能在以下场景兑现:

3. SDAR 的 +10% agent 任务提升是本周另一篇值得关注的论文。GRPO 正在成为 agent 后训练的标准范式,SDAR 引入的 gated distillation 思路简洁有效,很可能被后续工作广泛采用。

4. MetaBackdoor 是一篇应该让所有人停下来思考的论文。 位置编码作为攻击面此前完全没有被讨论过。Mark Russinovich(Azure CTO)参与署名说明微软内部对此高度重视。如果你的系统在多轮对话中暴露 LLM 给不可信用户,这值得立即关注。

5. "Grep > Vector" 的结论反直觉但合理。 Agent 场景下精确匹配(找某个函数名、变量名、错误信息)比语义相似度更有用。这对正在设计 agent 系统的人是一个及时的提醒——不要默认向量检索就是最优解。

本期入选论文汇总

论文arXiv方向入选理由
OpenDeepThink2605.15177推理·test-time compute新方法 (+405 Elo),代码+数据开源
SDAR2605.15155Agent RL 后训练GRPO + self-distillation,多 benchmark 显著提升
MeMo2605.15156记忆·知识注入MIT 组,闭源模型可用,多 benchmark
MetaBackdoor2605.15172安全·新攻击面首次发现 positional encoding 后门,Microsoft Security
Grep vs Vector2605.15184Agent 检索工程Claude Code/Codex/Gemini CLI 横向对比,直接工程指导
FutureSim2605.15188Agent 评测真实世界事件预测 benchmark,Hardt/Andriushchenko/Geiping