线性注意力与分词器的双重突破:从 erase/write 解耦到凸优化词表

为什么重要:LLM 效率优化的两个底层瓶颈同时被突破——线性注意力通过解耦 erase/write 门控刷新长上下文 SOTA,分词器从贪心算法改为凸优化后 token 压缩率提升 11%,两者均来自 NVIDIA/学术团队且代码开源,影响下一代推理架构和训练效率。

核心论文解读

论文一:Gated DeltaNet-2 — 线性注意力的 erase/write 解耦

技术背景:softmax attention 的 KV cache 随序列长度线性增长,导致长上下文推理成本高。线性注意力(如 Mamba 系列)用固定大小 recurrent state 替代 unbounded cache,实现 O(n) 混合和 O(1) 解码内存。但现有 Delta-rule 模型(DeltaNet、KDA)在写入压缩内存时,用同一个标量门控同时控制"擦除多少旧内容"和"写入多少新内容"——这两个操作本质上是不同的,不应绑定。

核心创新:Gated Delta Rule-2 将 erase 和 write 解耦为两个独立的 channel-wise 门控:

当两者退化为同一标量时,模型等价于 KDA;当 decay 也折叠时,等价于 Gated DeltaNet。所以 Gated DeltaNet-2 是前两者的严格泛化。

训练效率:推导出 chunkwise WY 算法(将 channel-wise decay 吸收到非对称擦除因子)和 gate-aware backward pass,保持高效并行训练。

实验结果(1.3B 参数,100B FineWeb-Edu tokens 训练):

任务结果
语言建模(标准基准)所有 Mamba-2/Gated DeltaNet/KDA/Mamba-3 变体中最强
常识推理超越所有上述baseline
检索任务超越所有上述baseline
RULER needle-in-a-haystack(长上下文)显著优势,多键检索 setting 下提升最大
关键意义:Delta 规则家族(Mamba-2/3、KDA、Gated DeltaNet)在 erase/write 解耦上殊途同归——Gated DeltaNet-2 统一了这条技术路线,且在长上下文多键检索上拉开差距。NVIDIA 亲自下场,代码已开源。

局限性:实验仅在 1.3B 规模验证,未在大模型(7B+)上测试泛化性;channel-wise 门控带来的参数量和推理延迟开销未详细披露。

论文二:ConvexTok — 分词器的凸优化重构

技术背景:当前主流分词算法(BPE、Unigram)均为贪心算法——每步做局部最优决策,从不考虑最终词表的全局最优性。这导致 token 化效率和模型压缩率存在系统性损失。

核心创新:将分词器构建重新表述为线性规划(LP),使用凸优化工具求解,得到新算法 ConvexTok

实验结果

指标对比 BPE/WordPiece/UnigramLM
Token 数量(40K+ 词表)减少 >11%
Bits-per-Byte(BpB)持续改善
1.5B LLM 训练 CORE score最高,超越 baseline 2.6%-7.6%
词表最优性证明实际词表与最优解差距 ≤1%(可证书)
关键意义:ConvexTok 从理论层面解决了分词器的全局优化问题,11% 的 token 压缩率意味着同等上下文窗口下可处理更长文本,或在固定 token 预算下降低训练/推理成本。最重要的是提供了可证明的近似最优上界——这是贪心算法无法提供的理论保证。

局限性:下游任务提升"不太一致"(论文原文),即模型级提升不稳定;目前无开源代码;凸优化求解器在大词表(100K+)上的训练时间尚未验证。

相关工作

我的判断

方向一(线性注意力):值得关注。Mamba-3 刚出不到一个月,NVIDIA 就发了 Gated DeltaNet-2 超越它。Delta 规则这条线没有收敛迹象,但行业正在从"状态空间 vs 注意力"转向"线性注意力的门控机制精细化"。如果你的场景涉及长上下文(>32K)或需要 constant-memory 解码,这是目前最值得跟踪的架构方向。

方向二(分词器):方向正确但落地存疑。ConvexTok 的理论框架漂亮,但实际工程价值取决于开源代码质量和大规模训练验证。11% token 压缩听起来很大,但论文自己的 downstream 提升"less consistent"说明分词器改进对模型最终能力的传导并不直接。建议等代码和 7B+ 规模验证再下结论。

注意:两篇论文均为同天(2026-05-21)提交到 arXiv,尚未经过同行评审。ConvexTok 无开源代码,需谨慎对待数字。
论文代码大厂背书新架构/方法可复现性
Gated DeltaNet-2✅ 已开源✅ NVlabs✅ erase/write 解耦
ConvexTok❌ 无❌ 学术✅ LP 分词待验证