为什么重要:LLM 长上下文推理的瓶颈正在从「模型能不能处理长序列」转向「能不能高效地处理长序列」。今天 arXiv 同时出现了两篇从不同角度解决稀疏注意力的工作——一篇从架构层面提出跨层路由共享(CLSA),一篇从系统层面实现可编程部署(Vortex)。这意味着稀疏注意力正在从理论走向生产,且两条路线高度互补。
论文:Cross-Layer Sparse Attention with Shared Routing (arXiv:2606.06467)
作者:Li Dong(微软研究院)等
提交:2026-06-04
动机:现有稀疏注意力方法面临结构性矛盾——block sparse 方法加速强但质量损失明显,token sparse 方法更精准但因逐层 top-k 路由成本高、端到端加速有限。CLSA 的洞察是:在 YOCO 等 KV 共享架构中,KV cache 已经跨层共享了,为什么路由索引不能也共享?
方法:CLSA 在 KV 共享架构上只做一次 token 级别的 top-k 选择(index once),然后将路由索引复用到所有 cross-decoder 层。这保留了 token sparse 的细粒度选择能力,同时将路由开销均摊到所有层。
关键数字:在 128K 上下文下,解码加速 7.6×,整体吞吐提升 17.1×。同时改善了 pre-filling、KV cache 存储、长上下文解码三个瓶颈。
技术细节:
局限性:依赖 YOCO 类 KV 共享架构,对于标准 Transformer 架构需额外改造;当前实验主要在 128K 上下文,更大规模(1M+)效果未知。
论文:Efficient and Programmable Sparse Attention Serving for AI Agents (arXiv:2606.06453)
提交:2026-06-04
动机:部署和评估新的稀疏注意力算法在大规模推理中极其工程密集。每种新算法都需要大量手动调优才能接入现有 serving 框架,这阻碍了稀疏注意力的实验和迭代速度。
方法:Vortex 提供两层抽象——上层是 Python-embedded DSL(基于 page-centric tensor abstraction),让研究者快速表达各种稀疏注意力算法;下层是深度集成到现代 LLM serving 栈的高效后端,将理论加速转化为实际吞吐提升。
关键数字:AI agent 自动生成的稀疏注意力算法达到 full attention 的 3.46× 吞吐且保持精度;在 MLA 架构的 GLM-4.7-Flash 上达 4.7× 吞吐提升;在 229B 参数 MiniMax-M2.7 的 B200 GPU 上达 1.37× 提升。
核心贡献:
局限性:当前深度集成依赖特定 serving 栈,跨框架可移植性待验证;AI agent 生成的算法质量受限于 agent 能力本身。
| 维度 | CLSA | Vortex |
|---|---|---|
| 层次 | 算法/架构层 | 系统/工程层 |
| 创新点 | 跨层路由索引共享 | DSL + 自动化部署管线 |
| 依赖 | YOCO 等 KV 共享架构 | 特定 serving 栈 |
| 适用场景 | 训练新模型时采用 | 已有模型的推理优化 |
| 最大加速 | 17.1×(128K 上下文) | 4.7×(MLA 架构) |
重要结论:CLSA 定义了「什幺样的稀疏模式最优」,Vortex 解决了「如何快速部署稀疏模式」。两者结合可能形成完整的稀疏注意力技术栈——CLSA 的路由共享策略可以通过 Vortex 的 DSL 快速实现并在不同模型上部署验证。
TL;DR:稀疏注意力正在经历从「学术 demo」到「生产基础设施」的质变。CLSA 和 Vortex 分别从两个方向加速了这一进程,且高度互补。
看好:
保留意见:
最值得关注的后续:CLSA 的代码开源 + Vortex 是否支持 YOCO/MLA 架构 = 稀疏注意力的「iPhone 时刻」。