LLM 组合的天花板:Co-Failure Ceiling 与 RouteMoA 的工程应对
2026-06-27 · 每日调研 · 聚焦论文与原理
为什么重要:过去一年 "Mixture-of-Agents / 模型路由 / 投票 / cascade" 被视为单模型性能突破后的标配加速器。但 Josef Chen 在 67 个前沿模型上做了一次系统性审计:所有模型 同时答错 的题目(co-failure)才是真正的天花板,平均成对相关性 ρ 完全预测不了这个量。同一周 ACL 2026 的 RouteMoA 给出了不靠 pre-inference 的动态路由方案——这两个工作合在一起,意味着多模型系统进入 "从堆模型到控失败" 的工程拐点。
核心论文解读
① Co-Failure Ceiling on Routing, Voting, and Mixture-of-Agents
arXiv:2606.27288cs.AI / cs.LG2026-06-25
作者:Josef Chen
核心论点:对任何"从成员模型中选一个答案"的策略(router / vote / cascade / MoA / fusion),其精度上限是 1 − β,其中 β 是所有模型对同一 query 同时答错的比率。这一上界独立于路由函数、模型权重、token 用量。换句话说:再多模型、再聪明的路由,也救不回"全员同时错"的那一部分。
关键方法:
- 区分两个常被混淆的统计量——成对误差相关性 ρ(行业惯用诊断指标)vs all-wrong 比率 β(真正的天花板)。作者给出反例:两组误差分布的边际和 ρ 完全一致,β 可以差 2 倍以上。
- 用 Clopper-Pearson 置信区间 给 β 给出有限样本证书——这意味着可以在训练任何 router 之前就估计出"任何 router / vote / cascade 的理论最大增益"。
- 用 tetrachoric 校准的单因子模型 在 67 模型 / 21 提供商的池上做实证,发现高斯 copula 仍然 系统性低估 β:在开放式数学题上观察 β=0.052,copula 预测 0.023(低估 ~2.5×,90% CI [1.7, 3.4],k=17)。代码执行题 β=0.079。
- GPQA-Diamond 用自由回答 vs 多选两种形式时,β 从 0.052 跳到 0.127(5 位 judge,κ=0.73–0.92)——作者据此把 co-failure 归因于 答案格式 而非学科。
反直觉结论:
- "Self-MoA"(用同一模型的多份采样做 ensemble)在低 ρ 异质池上打不过异质 ensemble。
- 在 checkpointable 任务上,组合模型几乎不能打败单模型最强的那一个,除非有强 query-level 路由信号。
- 提升来自"模型在 不同 题上失败",不是"加更多模型"。
局限性:作者是单作者工作;β 的 Clopper-Pearson 估计在低错误率区间会很保守;67 模型是 2026 年 6 月的横截面切片,会随模型迭代漂移。论文未给出 router 学习 β 的可操作算法——它更像一份"工程边界图",而非新 router。
② RouteMoA: Dynamic Routing without Pre-Inference Boosts Efficient Mixture-of-Agents
ACL 2026github.com/Jize-W/RouteMoA
作者:Jize W. 等
核心论点:MoA 默认每层让所有 agent 都参与前向推理,计算开销随层数 × agent 数线性放大。RouteMoA 用一个轻量级路由器在每层跳过 pre-inference 阶段直接挑 agent 子集,把 MoA 的 latency / cost 砍掉一大块而几乎不损精度。
关键方法:
- 与传统 cascade / routing 不同——cascade 通常先用一个便宜模型决定要不要 escalate,RouteMoA 不做 pre-inference,直接基于 query 特征做路由决策。
- 路由器训练用 multi-task 目标(OpenCompass 榜单 + lmdeploy 部署配置),无需改 MoA 主架构。
- 提供 EMOA / EMOA-LARGE 两档规模,分别面向不同延迟预算。
与 ① 的呼应:① 证明了"全员开会"对 β 没有增益,所以本质上 router 跳过部分 agent 是 无伤 的——只要跳过的是那些"和剩余成员容易同时错"的 agent(强 ρ 子集)。RouteMoA 验证了跳过带来的实际加速空间。
局限性:依赖 router 自身的训练数据质量;当成员模型池快速迭代时,路由分布会漂移;论文目前主要在 OpenCompass 范围内验证,是否能泛化到极端长尾 / 强对抗 prompt 仍待评估。
相关工作
| 方向 |
代表工作 |
与本期主题的关系 |
| MoA 原始架构 |
Wang et al., Mixture-of-Agents Enhances Large Language Model Capabilities, arXiv:2406.04692 (2024-06, Together AI) |
分层 MoA,每层所有 agent 接收上一层输出;本期论文 ② 正是它的"瘦身"版。 |
| LLM 推理趋同 |
上海交大团队近期 arXiv(不同厂商大模型推理逻辑量化) |
不同训练数据 / 架构下模型推理路径可能收敛到同一套路——这从机制上解释了 ① 观察到的 β 偏高。 |
| RL 后训练多样性塌缩 |
MIT, GRPO scalar reward 导致模型输出同质化(2026-05) |
多样性的源头被掐了,ensembling 的素材自然不足。 |
| LLM Agent CoT 训练定位 |
arXiv:2606.26935, Where Do CoT Training Gains Land in LLM based Agents? |
CoT 训练增益落点尚不清晰——和 MoA 类比:堆方法 ≠ 落点优化。 |
| LLM Agent 任务敏感性诊断 |
arXiv:2606.26918, Diagnosing Task Insensitivity in Language Agents |
为本期 "β 才是诊断量" 提供 agent 维度的平行证据。 |
我的判断
结论先行:本期的核心信号是——多模型组合的"魔法"正在退潮,路由与 MoA 类工作必须从"扩规模"转向"控失败"。
三条判断:
1. β > ρ,应成为工程基线。任何计划上 MoA / cascade / 投票的项目,第一步先在候选模型池上估计 β 并算 Clopper-Pearson CI。这一步比训练 router 便宜一个数量级,且能直接回答"这套架构值不值得做"。如果 β 已经 < 5% 且无 query-level 路由信号,那就别做——单模型最强那个已经赢了。
2. 异质 > 自同质。同模型多采样 / Self-MoA 在低 ρ 池上打不过异质 ensemble,且异质是降低 β 的关键。所以开源 / 多供应商策略在这里反而占优——单一供应商的"全明星阵容"会更快撞上 co-failure。
3. router 要用 query-level 信号,而不是模型统计。RouteMoA 的方向对,但要把路由特征从"query embedding"升级到"query × 模型组合预测"——本质就是 ① 提供的 β 估计管线反过来训练 router,让 router 学的是"这个 query 上哪几个模型最容易同时错"。
反方提醒:① 是单作者工作,且 67 模型横截面会随下一代模型迭代漂移;β 的工程化估计本身需要 query 集覆盖任务类型,否则 CI 不可靠。在生产环境部署 RouteMoA 类方案前,先用 ① 的方法在自家 query 上跑一遍 β,比直接相信 ACL 论文的 benchmark 数字更稳妥。