线性注意力与分词器的双重突破：从 erase/write 解耦到凸优化词表

为什么重要：LLM 效率优化的两个底层瓶颈同时被突破——线性注意力通过解耦 erase/write 门控刷新长上下文 SOTA，分词器从贪心算法改为凸优化后 token 压缩率提升 11%，两者均来自 NVIDIA/学术团队且代码开源，影响下一代推理架构和训练效率。

核心论文解读

论文一：Gated DeltaNet-2 — 线性注意力的 erase/write 解耦

论文：Gated DeltaNet-2: Decoupling Erase and Write in Linear Attention，Ali Hatamizadeh et al.，NVlabs
代码：NVlabs/GatedDeltaNet-2

技术背景：softmax attention 的 KV cache 随序列长度线性增长，导致长上下文推理成本高。线性注意力（如 Mamba 系列）用固定大小 recurrent state 替代 unbounded cache，实现 O(n) 混合和 O(1) 解码内存。但现有 Delta-rule 模型（DeltaNet、KDA）在写入压缩内存时，用同一个标量门控同时控制"擦除多少旧内容"和"写入多少新内容"——这两个操作本质上是不同的，不应绑定。

核心创新：Gated Delta Rule-2 将 erase 和 write 解耦为两个独立的 channel-wise 门控：

擦除门 b_t：控制旧内容在 key 侧被擦除的程度
写入门 w_t：控制新内容在 value 侧被提交的程度

当两者退化为同一标量时，模型等价于 KDA；当 decay 也折叠时，等价于 Gated DeltaNet。所以 Gated DeltaNet-2 是前两者的严格泛化。

训练效率：推导出 chunkwise WY 算法（将 channel-wise decay 吸收到非对称擦除因子）和 gate-aware backward pass，保持高效并行训练。

实验结果（1.3B 参数，100B FineWeb-Edu tokens 训练）：

任务	结果
语言建模（标准基准）	所有 Mamba-2/Gated DeltaNet/KDA/Mamba-3 变体中最强
常识推理	超越所有上述baseline
检索任务	超越所有上述baseline
RULER needle-in-a-haystack（长上下文）	显著优势，多键检索 setting 下提升最大

关键意义：Delta 规则家族（Mamba-2/3、KDA、Gated DeltaNet）在 erase/write 解耦上殊途同归——Gated DeltaNet-2 统一了这条技术路线，且在长上下文多键检索上拉开差距。NVIDIA 亲自下场，代码已开源。

局限性：实验仅在 1.3B 规模验证，未在大模型（7B+）上测试泛化性；channel-wise 门控带来的参数量和推理延迟开销未详细披露。

论文二：ConvexTok — 分词器的凸优化重构

论文：Tokenisation via Convex Relaxations，Jan Tempus et al.
代码：待发布（论文中未提供 URL）

技术背景：当前主流分词算法（BPE、Unigram）均为贪心算法——每步做局部最优决策，从不考虑最终词表的全局最优性。这导致 token 化效率和模型压缩率存在系统性损失。

核心创新：将分词器构建重新表述为线性规划（LP），使用凸优化工具求解，得到新算法 ConvexTok。

训练阶段：用整数规划（IP）选择词表，最小化整个语料的总 token 数；LP relaxation 实践中接近整数解，可证明近似最优
推理阶段：对每个 pre-token 构建完整二叉分裂树，使用预计算的 byte n-gram 频率，递归推理直接输出 in-vocabulary token

实验结果：

指标	对比 BPE/WordPiece/UnigramLM
Token 数量（40K+ 词表）	减少 >11%
Bits-per-Byte（BpB）	持续改善
1.5B LLM 训练 CORE score	最高，超越 baseline 2.6%-7.6%
词表最优性证明	实际词表与最优解差距 ≤1%（可证书）

关键意义：ConvexTok 从理论层面解决了分词器的全局优化问题，11% 的 token 压缩率意味着同等上下文窗口下可处理更长文本，或在固定 token 预算下降低训练/推理成本。最重要的是提供了可证明的近似最优上界——这是贪心算法无法提供的理论保证。

局限性：下游任务提升"不太一致"（论文原文），即模型级提升不稳定；目前无开源代码；凸优化求解器在大词表（100K+）上的训练时间尚未验证。

我的判断

方向一（线性注意力）：值得关注。Mamba-3 刚出不到一个月，NVIDIA 就发了 Gated DeltaNet-2 超越它。Delta 规则这条线没有收敛迹象，但行业正在从"状态空间 vs 注意力"转向"线性注意力的门控机制精细化"。如果你的场景涉及长上下文（>32K）或需要 constant-memory 解码，这是目前最值得跟踪的架构方向。

方向二（分词器）：方向正确但落地存疑。ConvexTok 的理论框架漂亮，但实际工程价值取决于开源代码质量和大规模训练验证。11% token 压缩听起来很大，但论文自己的 downstream 提升"less consistent"说明分词器改进对模型最终能力的传导并不直接。建议等代码和 7B+ 规模验证再下结论。

注意：两篇论文均为同天（2026-05-21）提交到 arXiv，尚未经过同行评审。ConvexTok 无开源代码，需谨慎对待数字。

论文	代码	大厂背书	新架构/方法	可复现性
Gated DeltaNet-2	✅ 已开源	✅ NVlabs	✅ erase/write 解耦	高
ConvexTok	❌ 无	❌ 学术	✅ LP 分词	待验证

线性注意力与分词器的双重突破：从 erase/write 解耦到凸优化词表

核心论文解读

论文一：Gated DeltaNet-2 — 线性注意力的 erase/write 解耦

论文二：ConvexTok — 分词器的凸优化重构

相关工作

我的判断