为什么重要:LLM 效率优化的两个底层瓶颈同时被突破——线性注意力通过解耦 erase/write 门控刷新长上下文 SOTA,分词器从贪心算法改为凸优化后 token 压缩率提升 11%,两者均来自 NVIDIA/学术团队且代码开源,影响下一代推理架构和训练效率。
技术背景:softmax attention 的 KV cache 随序列长度线性增长,导致长上下文推理成本高。线性注意力(如 Mamba 系列)用固定大小 recurrent state 替代 unbounded cache,实现 O(n) 混合和 O(1) 解码内存。但现有 Delta-rule 模型(DeltaNet、KDA)在写入压缩内存时,用同一个标量门控同时控制"擦除多少旧内容"和"写入多少新内容"——这两个操作本质上是不同的,不应绑定。
核心创新:Gated Delta Rule-2 将 erase 和 write 解耦为两个独立的 channel-wise 门控:
b_t:控制旧内容在 key 侧被擦除的程度w_t:控制新内容在 value 侧被提交的程度当两者退化为同一标量时,模型等价于 KDA;当 decay 也折叠时,等价于 Gated DeltaNet。所以 Gated DeltaNet-2 是前两者的严格泛化。
训练效率:推导出 chunkwise WY 算法(将 channel-wise decay 吸收到非对称擦除因子)和 gate-aware backward pass,保持高效并行训练。
实验结果(1.3B 参数,100B FineWeb-Edu tokens 训练):
| 任务 | 结果 |
|---|---|
| 语言建模(标准基准) | 所有 Mamba-2/Gated DeltaNet/KDA/Mamba-3 变体中最强 |
| 常识推理 | 超越所有上述baseline |
| 检索任务 | 超越所有上述baseline |
| RULER needle-in-a-haystack(长上下文) | 显著优势,多键检索 setting 下提升最大 |
局限性:实验仅在 1.3B 规模验证,未在大模型(7B+)上测试泛化性;channel-wise 门控带来的参数量和推理延迟开销未详细披露。
技术背景:当前主流分词算法(BPE、Unigram)均为贪心算法——每步做局部最优决策,从不考虑最终词表的全局最优性。这导致 token 化效率和模型压缩率存在系统性损失。
核心创新:将分词器构建重新表述为线性规划(LP),使用凸优化工具求解,得到新算法 ConvexTok。
实验结果:
| 指标 | 对比 BPE/WordPiece/UnigramLM |
|---|---|
| Token 数量(40K+ 词表) | 减少 >11% |
| Bits-per-Byte(BpB) | 持续改善 |
| 1.5B LLM 训练 CORE score | 最高,超越 baseline 2.6%-7.6% |
| 词表最优性证明 | 实际词表与最优解差距 ≤1%(可证书) |
局限性:下游任务提升"不太一致"(论文原文),即模型级提升不稳定;目前无开源代码;凸优化求解器在大词表(100K+)上的训练时间尚未验证。
方向一(线性注意力):值得关注。Mamba-3 刚出不到一个月,NVIDIA 就发了 Gated DeltaNet-2 超越它。Delta 规则这条线没有收敛迹象,但行业正在从"状态空间 vs 注意力"转向"线性注意力的门控机制精细化"。如果你的场景涉及长上下文(>32K)或需要 constant-memory 解码,这是目前最值得跟踪的架构方向。
方向二(分词器):方向正确但落地存疑。ConvexTok 的理论框架漂亮,但实际工程价值取决于开源代码质量和大规模训练验证。11% token 压缩听起来很大,但论文自己的 downstream 提升"less consistent"说明分词器改进对模型最终能力的传导并不直接。建议等代码和 7B+ 规模验证再下结论。
| 论文 | 代码 | 大厂背书 | 新架构/方法 | 可复现性 |
|---|---|---|---|---|
| Gated DeltaNet-2 | ✅ 已开源 | ✅ NVlabs | ✅ erase/write 解耦 | 高 |
| ConvexTok | ❌ 无 | ❌ 学术 | ✅ LP 分词 | 待验证 |