MoE 架构的下一次跃迁:全局共享专家池与模块化涌现

2026 年 5 月 10 日 · 每周日深度调研

为什么重要:本周两篇独立论文——UniPool 和 EMO——不约而同地攻击了 MoE 架构最底层的设计假设:每层 Transformer 独占一组专家。它们分别从训练效率和部署灵活性的角度证明,打破这个假设可以显著降低参数量、提升 loss,并实现真正的模块化推理。这可能是 MoE 自 GShard(2020)以来最重要的架构思想更新。

一句话总结:传统 MoE 每层各有一组专家,导致专家参数随深度线性膨胀。UniPool 用一个全局共享的专家池替代逐层专家,EMO 进一步让不同文档共享不同的专家子集从而自发形成语义模块。两者都证明:打破「层隔离」是 MoE 进化的关键一步。

核心论文解读

1. UniPool:全局共享专家池

arXiv:2605.06665 cs.LG 2026-05-07

作者:Minbin Huang, Han Shi, Chuanyang Zheng, Yimeng Wu, Guoxuan Chen, Xintong Yu, Yichun Yin, Hong Cheng

核心洞察:UniPool 做了一个路由探针实验:将深层 Transformer 学到的 top-k 路由器替换为均匀随机路由,下游准确率仅下降 1.0–1.6 个点。这意味着深层专家的路由在功能上是高度冗余的——每层单独拥有一组专家并没有充分利用容量。

方法:

实验结果:

指标结果
验证 loss 改进5 个模型规模(182M–978M)上一致优于 vanilla MoE,最高降低 0.0386
参数效率仅用 41.6%–66.7% 的专家参数即可匹配或超越逐层 MoE
扩展规律专家参数可随深度亚线性增长,不需要线性膨胀
兼容性可与更细粒度的 expert decomposition 叠加使用

关键结论:专家容量是全局资源而非每层资源。这个设计决策带来了一个此前 MoE 没有的自由度——pool size 成为一个独立的深度扩展超参数,让模型在参数量和性能之间有了更精细的调节空间。

2. EMO:涌现模块化的 MoE 预训练

arXiv:2605.06663 cs.CL 2026-05-07

作者:Ryan Wang, Akshita Bhagia, Sewon Min

核心洞察:标准 MoE 虽然每个 token 只激活部分专家,但如果人为限制到某个领域的专家子集,性能会严重退化。EMO 通过训练时让同一文档的 token 共享专家池、不同文档使用不同池,使专家在语义层面自发形成模块化结构。

方法:

实验结果:

指标结果
完整模型性能与标准 MoE 持平
仅保留 25% 专家性能下降仅 1%(标准 MoE 崩溃)
仅保留 12.5% 专家性能下降仅 3%
专家专业化层面语义级别(数学、代码等),而非标准 MoE 的句法级别

关键结论:EMO 实现了真正的「按需激活」——可以根据任务只加载相关的 12.5%–25% 专家,性能几乎无损。这意味着大规模稀疏模型的内存高效部署成为可能:手机、边缘设备可以只加载对话相关的专家模块。

两篇论文的关系

UniPool 和 EMO 看似独立,但共享一个核心思想:打破 MoE 的「每层隔离」惯例。UniPool 是训练效率路径——用更少的专家参数获得更好的 loss;EMO 是部署效率路径——训练出可在推理时按需裁剪的模块化专家。两者结合可能是未来 MoE 的蓝图:训练时用 UniPool 的全局池提升效率,推理时利用类似 EMO 的语义模块化按需激活。

局限与待验证:

相关工作

本周另有几篇值得关注的论文,均集中在 RL 训练和 Agent 方向:

论文arXiv核心贡献
POPO 2605.06650 仅用正向 rollouts 做 RLVR,无需负样本;Qwen-Math-7B 在 AIME 2025 上达 36.67%(GRPO 为 30.00%)
RAO 2605.06639 递归 Agent 优化:Agent 可 spawn 自己的子实例做分治推理,突破上下文窗口限制
ScaleLogic 2605.06638 RL 训练计算量与推理深度符合幂律关系 T ∝ D^γ,逻辑表达力越强 γ 越大(1.04→2.60)
VHG 2605.06660 三方自博弈生成困难数学题:setter + solver + verifier,防止 reward hacking
StraTA 2605.06642 层次化 Agent RL:在 task 级别注入策略抽象,ALFWorld 达 93.1%,SciWorld 63.5%

我的判断

1. MoE 按层隔离是一个历史包袱,不是设计上的必然。最早 GShard 这样定义是为了简化工程实现,后来大家都照搬了。UniPool 和 EMO 的收敛表明:下一波 MoE 改进的核心不是调参,而是重新设计 expert 的组织方式。

2. EMO 的模块化部署概念与「Mixture-of-Experts as a Service」高度契合。如果能按任务/领域动态加载专家子集,MoE 模型的服务化会成为可能:数学任务加载 math experts,代码任务加载 code experts,对话任务加载 language experts。这将对模型推理的经济模型产生重大影响。

3. 值得关注的组合方向:UniPool 的全局池 + EMO 的文档级约束。理论上完全兼容——全局池中专家自然形成语义分组后,推理时可以只激活相关组。如果这个方向被验证,可能定义下一代 MoE 的标准范式。

4. 并行趋势:RL 推理训练的快速进化。POPO 证明不需要负样本也可以做好 RLVR(这对稀疏奖励场景至关重要),ScaleLogic 首次量化了推理深度与训练计算量之间的幂律关系。这两个趋势——推理训练方法简化 + 理解扩展规律——将共同推动 LLM reasoning 的工业化。