可微分自适应稀疏注意力与 LLM Agent 动作压缩:两篇新论文解读
2026-05-20 · ArXiv 新论文精选
为什么重要:长上下文建模和 Agent 推理效率是 LLM 落地的两个核心瓶颈。NSA/InfLLMv2 等现有稀疏注意力方案存在梯度断路和固定 K 值两个根本性缺陷;LLM Agent 动作序列过长导致推理成本居高不下。本期聚焦两篇 5 月 18 日提交的论文,从注意力机制和动作表示两个正交维度给出解法。
核心论文解读
论文一:DashAttention — 可微分自适应稀疏分层注意力
论文:Differentiable and Adaptive Sparse Hierarchical Attention
作者:Yuxiang Huang 等,arXiv:2605.18753(cs.CL)
主题分类:Attention MechanismLong ContextInference Optimization
关键技术点
- 问题根源:NSA/InfLLMv2 等现有分层注意力用 top-k 选取 KV 块,k 对所有 query 固定,导致两件事:(1)每个 query 强制选取相同数量的 token,与实际信息需求不符;(2)top-k 的不可微性阻断了稀疏阶段→密集阶段的梯度流,限制了端到端优化。
- 核心创新:引入
α-entmax 变换替代 top-k,实现自适应稀疏——第一阶段根据当前 query 内容动态决定选取多少个 KV 块,块数可变;选取结果作为第二阶段 softmax 注意力的先验,全程可微。
- 数学性质:论文证明 DashAttention 是 non-dispersive(非弥散的),这直接转化为更强的长上下文建模能力——而 NSA/InfLLMv2 缺乏此保证。
- 性能数据:75% 稀疏度下达到全注意力精度,Pareto 前沿全面优于 NSA 和 InfLLMv2(尤其高稀疏场景);Triton 实现推理速度超 FlashAttention-3。
核心结论:DashAttention 解决的是稀疏注意力方法论层面的两个根本缺陷(固定 K + 梯度断路),而非单纯工程优化。其 non-dispersive 性质理论上保证了对长上下文的建模完整性,这是该工作的最大价值。
局限性
- Preprint 状态,尚未经过同行评审,理论证明的实践验证需要更多基准测试
- α-entmax 的稀疏度-精度 trade-off 在不同模型架构(MoE、Sliding Window 等)上的泛化性未充分探索
- Triton 实现对硬件有一定依赖,实测收益会因部署环境而异
论文二:LAR — 隐动作重参数化压缩 Agent 推理
论文:Latent Action Reparameterization for Efficient Agent Inference
作者:Wenhao Huang, Qingwen Zeng 等,arXiv:2605.18597(cs.AI,v2 版本 5 月 19 日更新)
主题分类:LLM AgentAction SpaceInference Efficiency
关键技术点
- 问题:LLM Agent 通过低层次文本动作(read file、run command 等)逐步完成任务,动作序列过长 → 有效决策视野(effective decision horizon)大 + 推理成本高。现有优化聚焦系统层(KV Cache、Batch)和提示工程,动作表示本身从未被审视。
- 核心创新:将 Agent 动作空间重参数化为紧致隐空间,每个隐动作对应多步语义行为。隐动作从 Agent 轨迹中学习,直接嵌入模型,规划与执行均基于抽象动作表示进行。
- 与先前工作的区别:Hand-crafted 宏(手动预设动作序列)和层级控制器(Hierarchical RL)都需要人工设计结构;LAR 是数据驱动的端到端学习,无需预定义层次或动作模板。
- 效果:在多个 LLM Agent 基准上显著缩短有效决策视野,减少 action tokens 和实际推理时间,同时保持或提升任务成功率。
核心结论:LAR 指出动作表示学习是 LLM Agent 推理扩展中被忽视的关键维度。模型架构和硬件的进步(系统层优化)与动作表示压缩(算法层优化)互补,两者独立叠加收益。
局限性
- 隐动作空间的可解释性弱,难以调试或人工干预特定决策路径
- 从轨迹学习隐动作意味着性能上限受限于专家轨迹的质量和覆盖度
- 在开放域、动作空间极大的场景(如 web agent)中的可扩展性尚未充分验证
相关工作对比
| 方向 | 代表工作 | 核心思路 | 局限性 |
| 稀疏注意力 |
NSA(2025) |
固定 top-k 选取 KV 块 |
k 固定,梯度断路 |
| 稀疏注意力 |
InfLLMv2(2025) |
粗粒度选块 + 细粒度 softmax |
同 NSA,稀疏度不自适应 |
| 稀疏注意力 |
DashAttention(本文) |
α-entmax 自适应稀疏,全程可微 |
Preprint,硬件依赖 |
| Agent 动作压缩 |
Hand-crafted 宏 |
预设动作序列模板 |
需人工设计,泛化差 |
| Agent 动作压缩 |
层级强化学习 |
两层控制器(高层规划 + 低层执行) |
层次结构固定,训练复杂 |
| Agent 动作压缩 |
LAR(本文) |
数据驱动隐动作空间,端到端学习 |
可解释性弱,依赖轨迹质量 |
我的判断
两篇论文从正交维度解决 LLM 落地成本问题——DashAttention 降低上下文长度的计算复杂度,LAR 降低决策序列长度的计算复杂度。两者均指向同一个结论:现有 LLM 系统存在大量结构性的低效,其根源在于表征/表示层的原始设计,而非单纯的工程问题。
DashAttention 的价值更高,理由:
- 注意力机制是所有 LLM 的共同基础设施,改进影响面更广
- Non-dispersive 理论保证是新增的,以前没有稀疏注意力方法具备
- 工程实现已验证(超 FlashAttention-3),有落地前景
LAR 的思路值得跟踪,但尚属早期:隐动作学习的收敛性、跨任务泛化性、与现有 Agent 框架(ReAct、Plan-and-Execute 等)的集成方式都需要更多研究。
注意事项:两篇论文均为 arXiv preprint,尚未经过完整同行评审。核心实验结果和理论证明的稳健性仍需在更多基线和方法上验证后方可视为可靠结论。