线性注意力新突破:Gated DeltaNet-2 统一 erase/write 门控

为什么重要 Transformer 的 softmax 注意力是 O(n²) 复杂度,长上下文下内存和延迟成为瓶颈。线性注意力用固定尺寸循环状态替代 unbounded cache,但历史信息编辑机制长期存在缺陷——erase 和 write 共享同一个标量门控,限制了遗忘和写入的独立调节能力。Gated DeltaNet-2 首次为 erase/write 分配独立通道级门控,在 1.3B 参数规模上全面超越 Mamba-2、KDA、Gated DeltaNet 等所有线性注意力变体,尤其在长上下文 RULER 针haystack 任务上优势显著。

2026-05-23 · 来源:arXiv cs.AI · 标签:架构线性注意力状态空间模型

核心论文解读

论文:Gated DeltaNet-2: Decoupling Erase and Write in Linear Attention

作者:NVlabs(英伟达研究)

arXiv2605.22791 · 代码

训练规模:1.3B 参数,100B FineWeb-Edu tokens

问题是什么

线性注意力用固定大小循环状态替代 softmax 注意力的无限 KV cache,将序列混合降至线性时间,解码降至常数内存。但难题不仅是"该遗忘什么",还有"如何在压缩记忆中编辑而不打乱已有关联"。

现有方案各有缺陷:

核心贡献:解耦 erase 和 write

Gated DeltaNet-2 引入两个独立通道级门控:

当两者退化为同一标量时,公式简化为 KDA;当 decay 也退化时,退化为 Gated DeltaNet——因此 Gated DeltaNet-2 是两者的真超集。

论文还给出了三个视角:

  1. 快速权重更新视角(FWU):数学等价推导
  2. Chunkwise WY 算法:将 channel-wise decay 吸收为非对称 erase 因子
  3. Gate-aware 反向传播:保留高效并行训练能力

实验结果

基准Gated DeltaNet-2 vs 对比备注
语言建模(FineWeb-Edu)整体最强Mamba-2、KDA、Gated DeltaNet 等全部超越
常识推理整体最强与语言建模结果一致
RULER(多键检索,长上下文)显著优势在 recurrent 和 hybrid 设置下均保持强劲
长上下文 needle-in-a-haystack提升明显channel-wise 门控在长距离依赖上效果突出

局限性

相关工作

MOSS:源代码级 Agent 自演化

另一篇值得关注的新论文(arXiv:2605.22794):MOSS 提出 Agent 系统应能自我改写源码而非仅修改文本配置文件。核心洞察:prompt/skill/memory 等文本层无法触达"结构性问题"——路由逻辑、hook 顺序、状态不变量都在代码里。通过外部 coding-agent CLI 改写源码,在 OpenClaw 上将 4 任务 grader 均分从 0.25 提升至 0.61。代码:dav-joy-thon/MOSS

线性注意力的竞争格局:

我的判断

架构创新有实质意义。erase/write 标量耦合是线性注意力长期存在的架构缺陷,channel-wise 解耦不是增量改进而是重新设计核心状态更新机制。在 1.3B 规模、长上下文检索上效果显著,且有完整的数学推导支撑——这不是调参,是重新建模。

实用价值方面:恒定解码内存(KV cache 无界增长的对立面)+ 线性推理成本,对需要长上下文但资源受限的场景(端侧、嵌入式、长文档分析)是实质性利好。

真正需要回答的问题是:和 transformer 比质量差距还有多少?论文对比了 Mamba-2、KDA 等 SSM/线性注意力变体,但没有和同尺寸 transformer(如 1.3B Llama)做质量对照。如果差距小于 5%,结合 O(n) 复杂度和常数内存的优势,线性注意力替代窗口将显著扩大。

代码已开源(NVlabs),值得关注。