OpenDeepThink：群体推理与 Bradley-Terry 聚合——测试时计算的新范式

2026-05-16 · 覆盖 ArXiv cs.AI / cs.CL 2026.05.14–15 最新提交

为什么重要

测试时计算扩展（test-time compute scaling）是当前 LLM 推理能力提升最活跃的前沿方向。OpenAI o-series 和 Google Gemini Thinking 都靠延长单条推理链来提升性能。但并行采样多条推理链再择优的"广度扩展"路线一直卡在选择瓶颈上——没有 ground-truth 验证器时如何挑出最好的那个？OpenDeepThink 用 Bradley-Terry 配对比较模型取代点估计打分，给出了一个优雅的答案：让 LLM 两两比较自己的候选答案，用统计排名取代单点评分。在 Gemini 3.1 Pro 上直接拉升 +405 Codeforces Elo，模型越强效果越好。这可能是群体智能范式在单模型推理上的第一次严肃落地。

核心贡献：OpenDeepThink 证明了基于 Bradley-Terry 的群体选择机制能在不修改模型权重的前提下，将 LLM 推理能力提升到超过单个最优 trace 的水平，且方法对模型无感——弱的和强的模型都能用，切换无需重新调参。

论文核心解读

OpenDeepThink: Parallel Reasoning via Bradley–Terry Aggregation

cs.AI 2026-05-14 Shang Zhou et al.

arXiv: 2605.15177 · 19 pages, 4 figures

1. 问题：并行推理的选择瓶颈

现有 test-time compute 方法主要有两条路：

深度扩展（o1/o3 路线）：让模型生成一条很长的 reasoning trace，逐步改进——计算成本与 trace 长度线性增长，但收益边际递减
广度扩展（parallel sampling）：同时采样 N 条候选推理链，挑最好的——问题是谁来挑？

挑候选的传统方法有三类，各有硬伤：

多数投票：忽略答案质量分布，在推理任务上效果差
过程奖励模型（PRM）：需要额外训练，泛化性受限
LLM-as-Judge 点估计打分（"给这个答案打 1-10 分"）：噪声大、有位置偏置、分数不具可比性

OpenDeepThink 的关键洞察：LLM 打分不可靠，但 LLM 做两两比较（A 比 B 好吗？）要可靠得多。这与人类评审的发现一致——配对比较比绝对评分更稳定。

2. 方法：Bradley-Terry 群体进化

管道分为四个阶段，循环迭代：

阶段	操作	作用
① 生成	LLM 并行产生 N 条候选推理链	种群初始化
② 比较	随机配对，LLM 判断每对中哪个更好，附带自然语言 critique	产生相对排序信号
③ 聚合	Bradley-Terry 模型从配对胜负记录中估计全局 skill rating	统计排名，压制噪声
④ 进化	保留前 3/4，用比较阶段产出的 critique 做 mutation；淘汰末 1/4	迭代改进种群质量

Bradley-Terry 模型的核心公式很简单：

P(i 胜过 j) = exp(θ_i) / (exp(θ_i) + exp(θ_j))

其中 θ_i 是候选人 i 的"能力分值"。从所有配对比较的胜负结果中，用最大似然估计出每个人的 θ，得到全局排名。这个过程对个别噪声比较天然鲁棒——少数误判不影响整体排序。

3. 实验：+405 Elo，27 分钟墙钟

Codeforces 竞赛编程：

基座 Gemini 3.1 Pro，8 轮迭代（每轮采样 16 条候选，配对比较约 120 次），总耗时 ~27 分钟 wall-clock
从原始 Elo 拉升 +405 分
随迭代轮次增加，种群平均质量持续上升，未出现退化

多领域 HOLMES Benchmark (HLE)：

在客观可验证领域（数学、编程）持续提升
在主观领域（创意写作）反而下降——LLM 的 pairwise judge 在主观任务上的偏好与真实质量出现了错位

关键警示：HLE 的主观域退化说明 Bradly-Terry 聚合的有效性取决于 judge 本身在该领域的校准质量。在 judge 不可靠的领域，种群进化会把偏见放大而不是消除。这是群体智能方法的一个本质脆弱点。

4. 额外贡献：CF-73 数据集

论文同时发布了 CF-73，73 道由国际象棋大师（International Grandmaster）人工标注的 Codeforces 竞赛题，本地自动评测与官方判题系统一致性达 99%。这对 Codeforces 方向的 LLM 评测是一个高质量补充。

5. 局限性

计算成本高：8 轮迭代 × 16 候选 × pairwise 比较 ≈ 每次推理需上百次 LLM 调用，27 分钟墙钟在实际部署中不可接受
主观任务退化：judge bias 会被种群进化放大
仅验证了 Gemini 3.1 Pro 一个基座，其他模型家族的表现待验证
mutation 机制（用 critique 改写候选）的效果缺乏消融分析

我的判断

OpenDeepThink 的方向是对的，但路径需要优化。

1. Bradley-Terry 聚合作为选择机制有理论美感——它不依赖额外训练、对噪声鲁棒、天然支持迭代改进。这是测试时计算"广度扩展"路线上我见过的最干净的设计之一。

2. 但 27 分钟的 wall-clock 让它在实际产品中毫无竞争力。 如果对比 o3 的一条深度推理链只需几秒到几十秒，OpenDeepThink 的 latency 劣势太大。这个方向的价值更可能在以下场景兑现：

离线批处理任务（代码审查、报告生成）—— latency 不敏感，质量优先
结合深度扩展——先广度选方向，再深度走下去
多模型集成——不同模型产生候选，BT 聚合跨模型择优

3. SDAR 的 +10% agent 任务提升是本周另一篇值得关注的论文。GRPO 正在成为 agent 后训练的标准范式，SDAR 引入的 gated distillation 思路简洁有效，很可能被后续工作广泛采用。

4. MetaBackdoor 是一篇应该让所有人停下来思考的论文。 位置编码作为攻击面此前完全没有被讨论过。Mark Russinovich（Azure CTO）参与署名说明微软内部对此高度重视。如果你的系统在多轮对话中暴露 LLM 给不可信用户，这值得立即关注。

5. "Grep > Vector" 的结论反直觉但合理。 Agent 场景下精确匹配（找某个函数名、变量名、错误信息）比语义相似度更有用。这对正在设计 agent 系统的人是一个及时的提醒——不要默认向量检索就是最优解。

本期入选论文汇总

论文	arXiv	方向	入选理由
OpenDeepThink	2605.15177	推理·test-time compute	新方法 (+405 Elo)，代码+数据开源
SDAR	2605.15155	Agent RL 后训练	GRPO + self-distillation，多 benchmark 显著提升
MeMo	2605.15156	记忆·知识注入	MIT 组，闭源模型可用，多 benchmark
MetaBackdoor	2605.15172	安全·新攻击面	首次发现 positional encoding 后门，Microsoft Security
Grep vs Vector	2605.15184	Agent 检索工程	Claude Code/Codex/Gemini CLI 横向对比，直接工程指导
FutureSim	2605.15188	Agent 评测	真实世界事件预测 benchmark，Hardt/Andriushchenko/Geiping

OpenDeepThink：群体推理与 Bradley-Terry 聚合——测试时计算的新范式

论文核心解读

OpenDeepThink: Parallel Reasoning via Bradley–Terry Aggregation

1. 问题：并行推理的选择瓶颈

2. 方法：Bradley-Terry 群体进化

3. 实验：+405 Elo，27 分钟墙钟

4. 额外贡献：CF-73 数据集

5. 局限性

相关工作

SDAR：用 Self-Distillation 驯服 Agent RL

MeMo：把 Memory 训练成独立模型

MetaBackdoor：Positional Encoding 成为 LLM 后门攻击面

"Is Grep All You Need?"：Agent 检索策略的实证比较

我的判断

本期入选论文汇总