LLM 组合的天花板：Co-Failure Ceiling 与 RouteMoA 的工程应对

为什么重要：过去一年 "Mixture-of-Agents / 模型路由 / 投票 / cascade" 被视为单模型性能突破后的标配加速器。但 Josef Chen 在 67 个前沿模型上做了一次系统性审计：所有模型 同时答错 的题目（co-failure）才是真正的天花板，平均成对相关性 ρ 完全预测不了这个量。同一周 ACL 2026 的 RouteMoA 给出了不靠 pre-inference 的动态路由方案——这两个工作合在一起，意味着多模型系统进入 "从堆模型到控失败" 的工程拐点。

核心论文解读

① Co-Failure Ceiling on Routing, Voting, and Mixture-of-Agents

arXiv:2606.27288cs.AI / cs.LG2026-06-25

作者：Josef Chen

核心论点：对任何"从成员模型中选一个答案"的策略（router / vote / cascade / MoA / fusion），其精度上限是 1 − β，其中 β 是所有模型对同一 query 同时答错的比率。这一上界独立于路由函数、模型权重、token 用量。换句话说：再多模型、再聪明的路由，也救不回"全员同时错"的那一部分。

关键方法：

区分两个常被混淆的统计量——成对误差相关性 ρ（行业惯用诊断指标）vs all-wrong 比率 β（真正的天花板）。作者给出反例：两组误差分布的边际和 ρ 完全一致，β 可以差 2 倍以上。
用 Clopper-Pearson 置信区间 给 β 给出有限样本证书——这意味着可以在训练任何 router 之前就估计出"任何 router / vote / cascade 的理论最大增益"。
用 tetrachoric 校准的单因子模型 在 67 模型 / 21 提供商的池上做实证，发现高斯 copula 仍然 系统性低估 β：在开放式数学题上观察 β=0.052，copula 预测 0.023（低估 ~2.5×，90% CI [1.7, 3.4]，k=17）。代码执行题 β=0.079。
GPQA-Diamond 用自由回答 vs 多选两种形式时，β 从 0.052 跳到 0.127（5 位 judge，κ=0.73–0.92）——作者据此把 co-failure 归因于 答案格式 而非学科。

反直觉结论：

"Self-MoA"（用同一模型的多份采样做 ensemble）在低 ρ 异质池上打不过异质 ensemble。
在 checkpointable 任务上，组合模型几乎不能打败单模型最强的那一个，除非有强 query-level 路由信号。
提升来自"模型在不同题上失败"，不是"加更多模型"。

局限性：作者是单作者工作；β 的 Clopper-Pearson 估计在低错误率区间会很保守；67 模型是 2026 年 6 月的横截面切片，会随模型迭代漂移。论文未给出 router 学习 β 的可操作算法——它更像一份"工程边界图"，而非新 router。

② RouteMoA: Dynamic Routing without Pre-Inference Boosts Efficient Mixture-of-Agents

ACL 2026github.com/Jize-W/RouteMoA

作者：Jize W. 等

核心论点：MoA 默认每层让所有 agent 都参与前向推理，计算开销随层数 × agent 数线性放大。RouteMoA 用一个轻量级路由器在每层跳过 pre-inference 阶段直接挑 agent 子集，把 MoA 的 latency / cost 砍掉一大块而几乎不损精度。

关键方法：

与传统 cascade / routing 不同——cascade 通常先用一个便宜模型决定要不要 escalate，RouteMoA 不做 pre-inference，直接基于 query 特征做路由决策。
路由器训练用 multi-task 目标（OpenCompass 榜单 + lmdeploy 部署配置），无需改 MoA 主架构。
提供 EMOA / EMOA-LARGE 两档规模，分别面向不同延迟预算。

与 ① 的呼应：① 证明了"全员开会"对 β 没有增益，所以本质上 router 跳过部分 agent 是 无伤 的——只要跳过的是那些"和剩余成员容易同时错"的 agent（强 ρ 子集）。RouteMoA 验证了跳过带来的实际加速空间。

局限性：依赖 router 自身的训练数据质量；当成员模型池快速迭代时，路由分布会漂移；论文目前主要在 OpenCompass 范围内验证，是否能泛化到极端长尾 / 强对抗 prompt 仍待评估。

方向	代表工作	与本期主题的关系
MoA 原始架构	Wang et al., Mixture-of-Agents Enhances Large Language Model Capabilities, arXiv:2406.04692 (2024-06, Together AI)	分层 MoA，每层所有 agent 接收上一层输出；本期论文 ② 正是它的"瘦身"版。
LLM 推理趋同	上海交大团队近期 arXiv（不同厂商大模型推理逻辑量化）	不同训练数据 / 架构下模型推理路径可能收敛到同一套路——这从机制上解释了 ① 观察到的 β 偏高。
RL 后训练多样性塌缩	MIT, GRPO scalar reward 导致模型输出同质化（2026-05）	多样性的源头被掐了，ensembling 的素材自然不足。
LLM Agent CoT 训练定位	arXiv:2606.26935, Where Do CoT Training Gains Land in LLM based Agents?	CoT 训练增益落点尚不清晰——和 MoA 类比：堆方法 ≠ 落点优化。
LLM Agent 任务敏感性诊断	arXiv:2606.26918, Diagnosing Task Insensitivity in Language Agents	为本期 "β 才是诊断量" 提供 agent 维度的平行证据。

LLM 组合的天花板：Co-Failure Ceiling 与 RouteMoA 的工程应对

核心论文解读

① Co-Failure Ceiling on Routing, Voting, and Mixture-of-Agents

② RouteMoA: Dynamic Routing without Pre-Inference Boosts Efficient Mixture-of-Agents

相关工作

我的判断