稀疏注意力实战化：跨层路由共享与可编程服务系统的双线突破

2026-06-05 · 长上下文推理稀疏注意力推理加速

为什么重要：LLM 长上下文推理的瓶颈正在从「模型能不能处理长序列」转向「能不能高效地处理长序列」。今天 arXiv 同时出现了两篇从不同角度解决稀疏注意力的工作——一篇从架构层面提出跨层路由共享（CLSA），一篇从系统层面实现可编程部署（Vortex）。这意味着稀疏注意力正在从理论走向生产，且两条路线高度互补。

核心论文解读

CLSA：You Only Index Once

论文：Cross-Layer Sparse Attention with Shared Routing (arXiv:2606.06467)
作者：Li Dong（微软研究院）等
提交：2026-06-04

动机：现有稀疏注意力方法面临结构性矛盾——block sparse 方法加速强但质量损失明显，token sparse 方法更精准但因逐层 top-k 路由成本高、端到端加速有限。CLSA 的洞察是：在 YOCO 等 KV 共享架构中，KV cache 已经跨层共享了，为什么路由索引不能也共享？

方法：CLSA 在 KV 共享架构上只做一次 token 级别的 top-k 选择（index once），然后将路由索引复用到所有 cross-decoder 层。这保留了 token sparse 的细粒度选择能力，同时将路由开销均摊到所有层。

关键数字：在 128K 上下文下，解码加速 7.6×，整体吞吐提升 17.1×。同时改善了 pre-filling、KV cache 存储、长上下文解码三个瓶颈。

技术细节：

基于 YOCO（You Only Cache Once）KV 共享架构，扩展共享范围到路由索引
单 indexer 计算一次 token 级 top-k 选择，跨层复用
适用于推理密集场景（长 CoT 生成），这正是当前推理模型的主要部署瓶颈

局限性：依赖 YOCO 类 KV 共享架构，对于标准 Transformer 架构需额外改造；当前实验主要在 128K 上下文，更大规模（1M+）效果未知。

Vortex：可编程稀疏注意力服务系统

论文：Efficient and Programmable Sparse Attention Serving for AI Agents (arXiv:2606.06453)
提交：2026-06-04

动机：部署和评估新的稀疏注意力算法在大规模推理中极其工程密集。每种新算法都需要大量手动调优才能接入现有 serving 框架，这阻碍了稀疏注意力的实验和迭代速度。

方法：Vortex 提供两层抽象——上层是 Python-embedded DSL（基于 page-centric tensor abstraction），让研究者快速表达各种稀疏注意力算法；下层是深度集成到现代 LLM serving 栈的高效后端，将理论加速转化为实际吞吐提升。

关键数字：AI agent 自动生成的稀疏注意力算法达到 full attention 的 3.46× 吞吐且保持精度；在 MLA 架构的 GLM-4.7-Flash 上达 4.7× 吞吐提升；在 229B 参数 MiniMax-M2.7 的 B200 GPU 上达 1.37× 提升。

核心贡献：

首创让 AI agent 自己设计和优化稀疏注意力算法（agent-driven algorithm discovery）
验证了稀疏注意力在 MLA（Multi-head Latent Attention）等新兴架构上的可行性
在超大规模模型（229B）上证明了稀疏注意力的实用性

局限性：当前深度集成依赖特定 serving 栈，跨框架可移植性待验证；AI agent 生成的算法质量受限于 agent 能力本身。

两条路线的互补性

维度	CLSA	Vortex
层次	算法/架构层	系统/工程层
创新点	跨层路由索引共享	DSL + 自动化部署管线
依赖	YOCO 等 KV 共享架构	特定 serving 栈
适用场景	训练新模型时采用	已有模型的推理优化
最大加速	17.1×（128K 上下文）	4.7×（MLA 架构）

重要结论：CLSA 定义了「什幺样的稀疏模式最优」，Vortex 解决了「如何快速部署稀疏模式」。两者结合可能形成完整的稀疏注意力技术栈——CLSA 的路由共享策略可以通过 Vortex 的 DSL 快速实现并在不同模型上部署验证。

我的判断

TL;DR：稀疏注意力正在经历从「学术 demo」到「生产基础设施」的质变。CLSA 和 Vortex 分别从两个方向加速了这一进程，且高度互补。

看好：

CLSA 的「index-once」思路简单但高效。YOCO/MLA 等 KV 共享架构正在成为主流（DeepSeek-V3, MiniMax-M2, GLM-4），CLSA 的跨层路由共享可以低成本集成。17.1× 的整体吞吐提升在长 CoT 推理场景中是 game-changing 级别的。
Vortex 的 DSL 抽象有生态价值。稀疏注意力的最大障碍不是缺少新算法，而是部署成本太高。Vortex 如果能成为事实标准，会大幅降低试错门槛。
两条路线可以合并。CLSA 的路由共享策略天然适合通过 Vortex 的 DSL 表达和部署。如果微软和 Vortex 团队能合作，会形成稀疏注意力的完整闭环。

保留意见：

CLSA 当前只在 YOCO 架构上验证，通用性存疑。标准 Transformer 的 GQA/MQA 能否通过类似机制获益？
Vortex 的「AI agent 设计算法」目前更像概念验证。3.46× 是 agent 自动生成的上限，实际生产场景中人类专家的调优仍不可替代。
两篇论文都没有直接对比对方方法，互补性目前只是推测。