CLSA:跨层稀疏注意力 —— 长上下文 LLM 推理的架构级突破

2026-06-07 · 每日调研

为什么重要:LLM 长上下文推理的核心瓶颈不在模型能力,而在注意力机制的平方复杂度。CLSA(Cross-Layer Sparse Attention)提出"只索引一次"的策略——在 KV 共享架构之上,连路由索引也共享,将 128K 上下文的解码速度提升 7.6 倍、整体吞吐量提升 17.1 倍。这不是工程优化,是架构层面的重新设计,可能影响下一代 LLM 的基础结构选型。

一句话:CLSA 在 YOCO 等 KV 共享架构之上做了看似简单但极聪明的扩展——既然 KV cache 已经跨层共享了,为什么 attention 路由索引不也共享?结果是 17.1× 整体吞吐提升,同时保持精度。

核心论文解读

You Only Index Once: Cross-Layer Sparse Attention with Shared Routing

cs.CLcs.AIcs.LG arXiv:2606.06467

作者:Li Dong 等(推测来自微软研究院,YOCO 原班团队)

问题背景

现有稀疏注意力方法面临一个根本性的效率-质量 trade-off:

CLSA 的洞见:如果 KV cache 已经在跨层共享(如 YOCO 架构),那路由索引也应该共享。一个 indexer 算一次 top-k,全部解码层复用——保留了 token 级细粒度选择性的同时,摊薄了路由开销。

技术架构

组件作用
KV 共享架构(YOCO)跨 decoder 层共享 KV cache,减少存储
共享路由索引单次 top-k 计算,所有层复用同一索引
联合加速同时优化 prefilling、KV 存储、长上下文解码三个瓶颈

关键数据:

局限性

相关工作

Vortex:可编程稀疏注意力推理系统

arXiv:2606.06453 cs.AI

Vortex 从系统层面解决稀疏注意力的部署问题。提供 Python 嵌入式前端 + 页面级张量抽象,让研究者和 AI Agent 能快速原型、部署、评估稀疏注意力算法。在 MLA 架构的 GLM-4.7-Flash 上达到 4.7× 吞吐提升,在 229B 参数的 MiniMax-M2.7 + B200 GPU 上达到 1.37× 提升。

CLSA 是架构创新(改变模型怎么算),Vortex 是系统创新(改变怎么跑)。两者互补:CLSA 定义了更高效的稀疏模式,Vortex 提供了让这些模式在真实硬件上落地的工程框架。

NF-CoT:基于归一化流的隐式推理

arXiv:2606.06447 cs.CLcs.LG

从另一个角度解决推理效率问题:不做稀疏注意力,而是把中间推理步骤从文本 token 压缩为连续隐向量。NF-CoT 在 LLM 内部嵌入归一化流(Normalizing Flows),在连续空间中做推理计算,仅在最后一步解码为文本。保留了因果解码、概率采样、KV cache 兼容和似然估计等自回归模型的优势,在代码生成任务上超过显式 CoT。

方法解决什么问题代价
CLSA(稀疏注意力)长上下文 KV cache 访问开销需 KV 共享架构
Vortex(稀疏推理系统)稀疏注意力工程部署难需适配具体推理栈
NF-CoT(隐式推理)CoT 的 token 生成开销训练复杂、可解释性下降

趋势观察

本周 cs.AI/cs.CL 的论文呈现出几个明显的聚集方向:

我的判断

CLSA 是本周最重要的一篇。它解决的不仅是工程问题,而是架构选择问题。当前 LLM 架构在 MHA→GQA→MLA→YOCO 这条进化线上,CLSA 证明了"共享"可以走得更远——不仅共享存储(KV cache),还可以共享计算(routing index)。这条思路可能催生新一代的"全共享"架构。

三个值得跟踪的方向:

  1. CLSA + Vortex 的组合:CLSA 定义了更好的稀疏模式,Vortex 提供了部署框架——两者结合的工程化方案值得关注
  2. 隐式推理 vs 稀疏注意力的互补性:NF-CoT 和 CLSA 从完全不同的角度解决推理效率——隐式推理压缩中间状态,稀疏注意力压缩 KV 访问。两者能否在同一模型中叠加?
  3. 扩散语言模型崛起信号:SARDI 被 ICML 2026 接收,且声称 8× 吞吐提升——扩散 LM 可能在未来 1-2 年成为自回归模型之外的实际选择,不再是纯学术探索
需要注意:CLSA 目前只验证到 128K 上下文。1M+ tokens 场景下的路由索引质量衰减是未知数。此外,CLSA 依赖 YOCO 架构——这意味着它更适合"下一代模型设计"而非"现有模型优化"。短期内对实际部署的影响可能不如 Vortex 直接。