稀疏注意力实战化:跨层路由共享与可编程服务系统的双线突破

2026-06-05 · 长上下文推理稀疏注意力推理加速

为什么重要:LLM 长上下文推理的瓶颈正在从「模型能不能处理长序列」转向「能不能高效地处理长序列」。今天 arXiv 同时出现了两篇从不同角度解决稀疏注意力的工作——一篇从架构层面提出跨层路由共享(CLSA),一篇从系统层面实现可编程部署(Vortex)。这意味着稀疏注意力正在从理论走向生产,且两条路线高度互补。

核心论文解读

CLSA:You Only Index Once

论文:Cross-Layer Sparse Attention with Shared Routing (arXiv:2606.06467)
作者:Li Dong(微软研究院)等
提交:2026-06-04

动机:现有稀疏注意力方法面临结构性矛盾——block sparse 方法加速强但质量损失明显,token sparse 方法更精准但因逐层 top-k 路由成本高、端到端加速有限。CLSA 的洞察是:在 YOCO 等 KV 共享架构中,KV cache 已经跨层共享了,为什么路由索引不能也共享?

方法:CLSA 在 KV 共享架构上只做一次 token 级别的 top-k 选择(index once),然后将路由索引复用到所有 cross-decoder 层。这保留了 token sparse 的细粒度选择能力,同时将路由开销均摊到所有层。

关键数字:在 128K 上下文下,解码加速 7.6×,整体吞吐提升 17.1×。同时改善了 pre-filling、KV cache 存储、长上下文解码三个瓶颈。

技术细节:

局限性:依赖 YOCO 类 KV 共享架构,对于标准 Transformer 架构需额外改造;当前实验主要在 128K 上下文,更大规模(1M+)效果未知。

Vortex:可编程稀疏注意力服务系统

论文:Efficient and Programmable Sparse Attention Serving for AI Agents (arXiv:2606.06453)
提交:2026-06-04

动机:部署和评估新的稀疏注意力算法在大规模推理中极其工程密集。每种新算法都需要大量手动调优才能接入现有 serving 框架,这阻碍了稀疏注意力的实验和迭代速度。

方法:Vortex 提供两层抽象——上层是 Python-embedded DSL(基于 page-centric tensor abstraction),让研究者快速表达各种稀疏注意力算法;下层是深度集成到现代 LLM serving 栈的高效后端,将理论加速转化为实际吞吐提升。

关键数字:AI agent 自动生成的稀疏注意力算法达到 full attention 的 3.46× 吞吐且保持精度;在 MLA 架构的 GLM-4.7-Flash 上达 4.7× 吞吐提升;在 229B 参数 MiniMax-M2.7 的 B200 GPU 上达 1.37× 提升。

核心贡献:

局限性:当前深度集成依赖特定 serving 栈,跨框架可移植性待验证;AI agent 生成的算法质量受限于 agent 能力本身。

两条路线的互补性

维度CLSAVortex
层次算法/架构层系统/工程层
创新点跨层路由索引共享DSL + 自动化部署管线
依赖YOCO 等 KV 共享架构特定 serving 栈
适用场景训练新模型时采用已有模型的推理优化
最大加速17.1×(128K 上下文)4.7×(MLA 架构)

重要结论:CLSA 定义了「什幺样的稀疏模式最优」,Vortex 解决了「如何快速部署稀疏模式」。两者结合可能形成完整的稀疏注意力技术栈——CLSA 的路由共享策略可以通过 Vortex 的 DSL 快速实现并在不同模型上部署验证。

相关工作

我的判断

TL;DR:稀疏注意力正在经历从「学术 demo」到「生产基础设施」的质变。CLSA 和 Vortex 分别从两个方向加速了这一进程,且高度互补。

看好:

  1. CLSA 的「index-once」思路简单但高效。YOCO/MLA 等 KV 共享架构正在成为主流(DeepSeek-V3, MiniMax-M2, GLM-4),CLSA 的跨层路由共享可以低成本集成。17.1× 的整体吞吐提升在长 CoT 推理场景中是 game-changing 级别的。
  2. Vortex 的 DSL 抽象有生态价值。稀疏注意力的最大障碍不是缺少新算法,而是部署成本太高。Vortex 如果能成为事实标准,会大幅降低试错门槛。
  3. 两条路线可以合并。CLSA 的路由共享策略天然适合通过 Vortex 的 DSL 表达和部署。如果微软和 Vortex 团队能合作,会形成稀疏注意力的完整闭环。

保留意见:

最值得关注的后续:CLSA 的代码开源 + Vortex 是否支持 YOCO/MLA 架构 = 稀疏注意力的「iPhone 时刻」。