线性注意力新突破：Gated DeltaNet-2 统一 erase/write 门控

为什么重要 Transformer 的 softmax 注意力是 O(n²) 复杂度，长上下文下内存和延迟成为瓶颈。线性注意力用固定尺寸循环状态替代 unbounded cache，但历史信息编辑机制长期存在缺陷——erase 和 write 共享同一个标量门控，限制了遗忘和写入的独立调节能力。Gated DeltaNet-2 首次为 erase/write 分配独立通道级门控，在 1.3B 参数规模上全面超越 Mamba-2、KDA、Gated DeltaNet 等所有线性注意力变体，尤其在长上下文 RULER 针haystack 任务上优势显著。

2026-05-23 · 来源：arXiv cs.AI · 标签：架构线性注意力状态空间模型

核心论文解读

论文：Gated DeltaNet-2: Decoupling Erase and Write in Linear Attention

作者：NVlabs（英伟达研究）

arXiv：2605.22791 · 代码

训练规模：1.3B 参数，100B FineWeb-Edu tokens

问题是什么

线性注意力用固定大小循环状态替代 softmax 注意力的无限 KV cache，将序列混合降至线性时间，解码降至常数内存。但难题不仅是"该遗忘什么"，还有"如何在压缩记忆中编辑而不打乱已有关联"。

现有方案各有缺陷：

Delta-rule 模型（DeltaNet）：在写入新值前先减去当前读出值，实现记忆编辑
Kimi Delta Attention（KDA）：引入 channel-wise decay 锐化遗忘，但 active edit 仍用单一标量门控同时控制两件事：key 侧该遗忘多少旧内容，以及 value 侧该写入多少新内容

核心贡献：解耦 erase 和 write

Gated DeltaNet-2 引入两个独立通道级门控：

erase gate b_t：控制每个通道该遗忘多少
write gate w_t：控制每个通道该写入多少

当两者退化为同一标量时，公式简化为 KDA；当 decay 也退化时，退化为 Gated DeltaNet——因此 Gated DeltaNet-2 是两者的真超集。

论文还给出了三个视角：

快速权重更新视角（FWU）：数学等价推导
Chunkwise WY 算法：将 channel-wise decay 吸收为非对称 erase 因子
Gate-aware 反向传播：保留高效并行训练能力

实验结果

基准	Gated DeltaNet-2 vs 对比	备注
语言建模（FineWeb-Edu）	整体最强	Mamba-2、KDA、Gated DeltaNet 等全部超越
常识推理	整体最强	与语言建模结果一致
RULER（多键检索，长上下文）	显著优势	在 recurrent 和 hybrid 设置下均保持强劲
长上下文 needle-in-a-haystack	提升明显	channel-wise 门控在长距离依赖上效果突出

局限性

实验仅在 1.3B 参数规模验证，更大规模（如 7B+）的 scaling 行为尚待验证
训练数据为 FineWeb-Edu（教育过滤文本），对其他分布（如代码、结构化文档）的泛化不确定
与 softmax attention 的直接对比（质量差距）未在长上下文场景充分展示
WY 算法理论上高效，但实际实现复杂度高于标准 Mamba 实现

我的判断

架构创新有实质意义。erase/write 标量耦合是线性注意力长期存在的架构缺陷，channel-wise 解耦不是增量改进而是重新设计核心状态更新机制。在 1.3B 规模、长上下文检索上效果显著，且有完整的数学推导支撑——这不是调参，是重新建模。

实用价值方面：恒定解码内存（KV cache 无界增长的对立面）+ 线性推理成本，对需要长上下文但资源受限的场景（端侧、嵌入式、长文档分析）是实质性利好。

真正需要回答的问题是：和 transformer 比质量差距还有多少？论文对比了 Mamba-2、KDA 等 SSM/线性注意力变体，但没有和同尺寸 transformer（如 1.3B Llama）做质量对照。如果差距小于 5%，结合 O(n) 复杂度和常数内存的优势，线性注意力替代窗口将显著扩大。

代码已开源（NVlabs），值得关注。

线性注意力新突破：Gated DeltaNet-2 统一 erase/write 门控

核心论文解读

论文：Gated DeltaNet-2: Decoupling Erase and Write in Linear Attention

实验结果

局限性

相关工作

MOSS：源代码级 Agent 自演化

我的判断