MoE 架构的下一次跃迁：全局共享专家池与模块化涌现

2026 年 5 月 10 日 · 每周日深度调研

为什么重要：本周两篇独立论文——UniPool 和 EMO——不约而同地攻击了 MoE 架构最底层的设计假设：每层 Transformer 独占一组专家。它们分别从训练效率和部署灵活性的角度证明，打破这个假设可以显著降低参数量、提升 loss，并实现真正的模块化推理。这可能是 MoE 自 GShard（2020）以来最重要的架构思想更新。

一句话总结：传统 MoE 每层各有一组专家，导致专家参数随深度线性膨胀。UniPool 用一个全局共享的专家池替代逐层专家，EMO 进一步让不同文档共享不同的专家子集从而自发形成语义模块。两者都证明：打破「层隔离」是 MoE 进化的关键一步。

核心论文解读

1. UniPool：全局共享专家池

arXiv:2605.06665 cs.LG 2026-05-07

作者：Minbin Huang, Han Shi, Chuanyang Zheng, Yimeng Wu, Guoxuan Chen, Xintong Yu, Yichun Yin, Hong Cheng

核心洞察：UniPool 做了一个路由探针实验：将深层 Transformer 学到的 top-k 路由器替换为均匀随机路由，下游准确率仅下降 1.0–1.6 个点。这意味着深层专家的路由在功能上是高度冗余的——每层单独拥有一组专家并没有充分利用容量。

方法：

将每层独立的专家集替换为一个全局共享的专家池，所有层的路由器都从这个池中选择专家
引入 pool-level auxiliary loss 在全局层面平衡专家利用率（而非逐层平衡）
采用 NormRouter 提供稀疏且 scale-stable 的路由机制

实验结果：

指标	结果
验证 loss 改进	5 个模型规模（182M–978M）上一致优于 vanilla MoE，最高降低 0.0386
参数效率	仅用 41.6%–66.7% 的专家参数即可匹配或超越逐层 MoE
扩展规律	专家参数可随深度亚线性增长，不需要线性膨胀
兼容性	可与更细粒度的 expert decomposition 叠加使用

关键结论：专家容量是全局资源而非每层资源。这个设计决策带来了一个此前 MoE 没有的自由度——pool size 成为一个独立的深度扩展超参数，让模型在参数量和性能之间有了更精细的调节空间。

2. EMO：涌现模块化的 MoE 预训练

arXiv:2605.06663 cs.CL 2026-05-07

作者：Ryan Wang, Akshita Bhagia, Sewon Min

核心洞察：标准 MoE 虽然每个 token 只激活部分专家，但如果人为限制到某个领域的专家子集，性能会严重退化。EMO 通过训练时让同一文档的 token 共享专家池、不同文档使用不同池，使专家在语义层面自发形成模块化结构。

方法：

训练约束：同一文档内的所有 token 从一个固定的专家子集中选择（document-level pool），而非全局任意选择
不同文档可以使用不同的专家子集
唯一依赖的信号是文档边界——无需人工定义领域标签
1B-active / 14B-total 参数规模，1T token 预训练

实验结果：

指标	结果
完整模型性能	与标准 MoE 持平
仅保留 25% 专家	性能下降仅 1%（标准 MoE 崩溃）
仅保留 12.5% 专家	性能下降仅 3%
专家专业化层面	语义级别（数学、代码等），而非标准 MoE 的句法级别

关键结论：EMO 实现了真正的「按需激活」——可以根据任务只加载相关的 12.5%–25% 专家，性能几乎无损。这意味着大规模稀疏模型的内存高效部署成为可能：手机、边缘设备可以只加载对话相关的专家模块。

两篇论文的关系

UniPool 和 EMO 看似独立，但共享一个核心思想：打破 MoE 的「每层隔离」惯例。UniPool 是训练效率路径——用更少的专家参数获得更好的 loss；EMO 是部署效率路径——训练出可在推理时按需裁剪的模块化专家。两者结合可能是未来 MoE 的蓝图：训练时用 UniPool 的全局池提升效率，推理时利用类似 EMO 的语义模块化按需激活。

局限与待验证：

UniPool 在 30B token 上训练，尚未验证在 1T+ token 大模型尺度下的收敛行为
EMO 的文档边界约束在多大程度上能推广到非文档结构数据（如对话流）尚不明确
两篇论文的实验都在 LLaMA 架构上进行，对非 Auto-Regressive 架构（如扩散 LLM）的适用性未知
全局池的通信开销在分布式训练中的实际影响未被系统测量

论文	arXiv	核心贡献
POPO	2605.06650	仅用正向 rollouts 做 RLVR，无需负样本；Qwen-Math-7B 在 AIME 2025 上达 36.67%（GRPO 为 30.00%）
RAO	2605.06639	递归 Agent 优化：Agent 可 spawn 自己的子实例做分治推理，突破上下文窗口限制
ScaleLogic	2605.06638	RL 训练计算量与推理深度符合幂律关系 T ∝ D^γ，逻辑表达力越强 γ 越大（1.04→2.60）
VHG	2605.06660	三方自博弈生成困难数学题：setter + solver + verifier，防止 reward hacking
StraTA	2605.06642	层次化 Agent RL：在 task 级别注入策略抽象，ALFWorld 达 93.1%，SciWorld 63.5%

我的判断

1. MoE 按层隔离是一个历史包袱，不是设计上的必然。最早 GShard 这样定义是为了简化工程实现，后来大家都照搬了。UniPool 和 EMO 的收敛表明：下一波 MoE 改进的核心不是调参，而是重新设计 expert 的组织方式。

2. EMO 的模块化部署概念与「Mixture-of-Experts as a Service」高度契合。如果能按任务/领域动态加载专家子集，MoE 模型的服务化会成为可能：数学任务加载 math experts，代码任务加载 code experts，对话任务加载 language experts。这将对模型推理的经济模型产生重大影响。

3. 值得关注的组合方向：UniPool 的全局池 + EMO 的文档级约束。理论上完全兼容——全局池中专家自然形成语义分组后，推理时可以只激活相关组。如果这个方向被验证，可能定义下一代 MoE 的标准范式。