为什么重要 Transformer 的 softmax 注意力是 O(n²) 复杂度,长上下文下内存和延迟成为瓶颈。线性注意力用固定尺寸循环状态替代 unbounded cache,但历史信息编辑机制长期存在缺陷——erase 和 write 共享同一个标量门控,限制了遗忘和写入的独立调节能力。Gated DeltaNet-2 首次为 erase/write 分配独立通道级门控,在 1.3B 参数规模上全面超越 Mamba-2、KDA、Gated DeltaNet 等所有线性注意力变体,尤其在长上下文 RULER 针haystack 任务上优势显著。
问题是什么
线性注意力用固定大小循环状态替代 softmax 注意力的无限 KV cache,将序列混合降至线性时间,解码降至常数内存。但难题不仅是"该遗忘什么",还有"如何在压缩记忆中编辑而不打乱已有关联"。
现有方案各有缺陷:
核心贡献:解耦 erase 和 write
Gated DeltaNet-2 引入两个独立通道级门控:
b_t:控制每个通道该遗忘多少w_t:控制每个通道该写入多少当两者退化为同一标量时,公式简化为 KDA;当 decay 也退化时,退化为 Gated DeltaNet——因此 Gated DeltaNet-2 是两者的真超集。
论文还给出了三个视角:
| 基准 | Gated DeltaNet-2 vs 对比 | 备注 |
|---|---|---|
| 语言建模(FineWeb-Edu) | 整体最强 | Mamba-2、KDA、Gated DeltaNet 等全部超越 |
| 常识推理 | 整体最强 | 与语言建模结果一致 |
| RULER(多键检索,长上下文) | 显著优势 | 在 recurrent 和 hybrid 设置下均保持强劲 |
| 长上下文 needle-in-a-haystack | 提升明显 | channel-wise 门控在长距离依赖上效果突出 |
另一篇值得关注的新论文(arXiv:2605.22794):MOSS 提出 Agent 系统应能自我改写源码而非仅修改文本配置文件。核心洞察:prompt/skill/memory 等文本层无法触达"结构性问题"——路由逻辑、hook 顺序、状态不变量都在代码里。通过外部 coding-agent CLI 改写源码,在 OpenClaw 上将 4 任务 grader 均分从 0.25 提升至 0.61。代码:dav-joy-thon/MOSS
线性注意力的竞争格局:
架构创新有实质意义。erase/write 标量耦合是线性注意力长期存在的架构缺陷,channel-wise 解耦不是增量改进而是重新设计核心状态更新机制。在 1.3B 规模、长上下文检索上效果显著,且有完整的数学推导支撑——这不是调参,是重新建模。
实用价值方面:恒定解码内存(KV cache 无界增长的对立面)+ 线性推理成本,对需要长上下文但资源受限的场景(端侧、嵌入式、长文档分析)是实质性利好。
真正需要回答的问题是:和 transformer 比质量差距还有多少?论文对比了 Mamba-2、KDA 等 SSM/线性注意力变体,但没有和同尺寸 transformer(如 1.3B Llama)做质量对照。如果差距小于 5%,结合 O(n) 复杂度和常数内存的优势,线性注意力替代窗口将显著扩大。
代码已开源(NVlabs),值得关注。