FP4 训练 vs FP4 推理：LLM 量化路线正在分叉

2026-06-22 · 每日调研 · 主题：FP4 量化 / LLM 训练与推理

为什么重要：2026 年 Blackwell B200 / Rubin 与 AMD MI350 已把 FP4 算力作为一等公民，但"FP4 训什么、推什么"还没收敛。今天同时出现的两篇论文（arXiv:2606.20381、arXiv:2606.20474）正好暴露了一个分裂——训练侧认为 E2M1（非均匀）是次优选择，主张改用均匀网格（E1M2/INT4）；推理侧则已经在 CDNA4 上把 FP4 KV cache 落地到生产 serving。两个方向共同回答一个问题：4-bit 时代，硬件和数据格式谁应该先让步？

核心论文解读

1. UFP4 — Rethinking Shrinkage Bias in LLM FP4 Pretraining

arXiv:2606.20381cs.AI
作者：Qian Zhao、Kunlong Chen、Changxin Tian、Zhonghui Jiang 等（Jun Zhou 团队）
投稿日期：2026-06-18 · 18 页 · 12 图

核心问题：当前所有 FP4 硬件路径（NVIDIA Blackwell / Rubin、AMD MI350）都以 E2M1（1 位符号 + 2 位指数 + 1 位尾数）作为数据格式。论文指出 E2M1 的"非均匀格点"带来一个被忽视的系统性误差——Shrinkage Bias：因为可表示的 bin 在几何上不对称，所有量化误差都是负向的（round-down），不是零均值。
关键技术点：
1. 误差传播分析：证明 Shrinkage Bias 是乘法累积的（不是加法）——所以层数越深、训练越长，损失越大；这解释了现有 E2M1 FP4 训练的"长尾不稳"现象。
2. RHT 的双刃剑：Random Hadamard Transform 是当下 FP4 训练几乎必备的预处理，但论文显示它会放大 Shrinkage Bias 的方差，因为高频分量经过格点量化时被进一步"压扁"。
3. UFP4 配方：改用均匀网格（E1M2 或 INT4）避开格点几何误差 → 把 RHT 的收益"还"回去；同时把随机舍入（stochastic rounding）只施加在反向传播的梯度 dY 上（而非三个 GEMM 全用），简化误差控制路径。
4. 实验规模：Dense 1.5B、MoE 7.9B、MoE 124B 三档 long-run pretraining + scaling-law 验证，UFP4 在 BF16-relative loss 退化上持续优于 E2M1 baseline。
工程含义：呼吁未来加速器（Rubin 之后、CDNA5 之后）把 E1M2 / INT4 也作为一等公民支持，而不是只押注 E2M1。这是对 NVIDIA / AMD 硬件路线图的直接喊话。
局限性：
- 没有给出完整端到端 throughput 数字——只比 BF16 相对损失，没直接比 E2M1 FP4 的训练 step time。
- UFP4 在均匀网格下表达极值的能力弱于 E2M1，需要后续工作论证 outlier 处理（FP8 / FP16 异常值通道）是否够用。
- 论文没有提供开源代码（截至摘要未声明）。

2. UltraQuant — 4-bit KV Caching for Context-Heavy Agents

arXiv:2606.20474cs.LG
作者：Inesh Chakrabarti、David Limpus 等（AMD + UCLA + Purdue）
投稿日期：2026-06-18 · 11 页 · 9 图

核心问题：Agent 类工作负载（长 system prompt、多轮短对话、并发复用 prefix）对 KV cache 的压力前所未有——长 prefix 跨多轮复用，cache 命中率决定 TTFT，并发度决定吞吐。作者把 4-bit KV cache 推到 vLLM 级别的生产 serving。
关键技术点：
1. TurboQuant 锚定：以 TurboQuant 风格的旋转 + codebook 量化作为"质量天花板"；以 vLLM FP8 KV cache 作为部署 baseline。
2. 4-bit 路径的工程细节：非对称 K/V 处理（K 比 V 更敏感，必须更精细）、Walsh-Hadamard 旋转、QJL（量化 Jacobian 损失）消除、block-scale 变体——四个旋钮共同保证 4-bit 不掉点。
3. UltraQuant 路径：在 AMD CDNA4（MI355X 系列）上原生支持 FP8 query + FP4 KV tensor + UE8M0 group scale，走 native scaled-MFMA 指令路径——这是 GPU 厂商第一次把 4-bit KV cache 写到硬件 kernel 层。
4. 实测数字：长上下文多轮 Agent workload，P50 TTFT 在 cache 压力最大的后半段 3.47× 加速（全程 2.3×），output throughput 1.63× over FP8 KV baseline。
工程含义：这不是"再一篇 KV cache 量化论文"，而是 AMD 用自己的硬件重新定义了 KV cache 量化的性能边界——把"FP4 KV cache"从研究 demo 推到 vLLM-level 部署参考。
局限性：
- benchmark 集中在 AMD CDNA4，NVIDIA Blackwell 上的对应数字未提供（NV 的 FP4 KV 路径尚未公开 native kernel）。
- "长上下文多轮 Agent workload" 的具体任务、模型大小未在摘要披露，需要看正文确认泛化性。
- TTFT 3.47× 这个数字是 cache 压力最大的"late rounds"，平摊到全部轮次只有 2.3×——落地时要看真实工作负载分布。

方向	代表工作	关键差异
FP4 训练基础	NVIDIA NVFP4 (Blackwell), AMD MXFP4 (MI350)	都押注 E2M1 + block scaling factor；UFP4 主张再加 E1M2/INT4
KV cache 量化	KIVI、KVQuant、Atom、QoQ	多在 2-4 bit、INT 格式；UltraQuant 第一个走 FP4 + UE8M0 + CDNA4 native
旋转 + 量化	TurboQuant、QuIP#、QuaRot	用 Hadamard / 随机旋转消除 outlier；UFP4 指出 RHT 与 E2M1 格点交互放大偏差
Agent serving	vLLM、SGLang、Mooncake (PrefixCache)	关注 prefix 复用、cache 命中率；UltraQuant 把这些 metric 纳入 KV cache 量化评估

我的判断

1. 训练侧：E2M1 不是终局

UFP4 的 Shrinkage Bias 分析是扎实的——把训练不稳归因到"格点几何不对称"这个一阶效应，而不是随机初始化或学习率这种二阶因素。这个解释力足以让 NVIDIA / AMD 在下一代硬件规划时考虑把 E1M2 / INT4 写进指令集。但短期（2026 H2）所有 FP4 训练还是只能在 E2M1 上跑，所以 UFP4 的实际工程落地路径是"软硬结合"——保留 FP4 计算，用软件模拟 E1M2 / INT4 路径。

2. 推理侧：4-bit KV cache 进入生产倒计时

UltraQuant 最重要的不是 3.47× 这个数字，而是它用 AMD CDNA4 的 native scaled-MFMA 走通了端到端 4-bit KV cache。一旦这个路径稳定，vLLM / SGLang 跟进，2026 下半年到 2027 H1，"4-bit KV cache 默认开启"会成为 Agent serving 的默认选项。NVIDIA 那边除非也公开 FP4 KV 的 native kernel，否则在 long-context agent 这块会被 AMD 的部署成熟度甩开一段。

3. 量化研究范式正在切换

  2024-2025 的范式：在 FP16 / BF16 上做 INT8 / INT4 量化 → 关注"精度保持"。

  2026 的范式：在 FP4 / FP6 上做"原生"训练和推理 → 关注"硬件-数据格式协同设计"。

UFP4 和 UltraQuant 的核心方法论都是从"硬件已经定了 → 我们去适配"切到"硬件可以改 → 我们告诉硬件该长什么样"。这是 LLM 量化研究从应用层向系统层下沉的标志。

实操提醒：

如果在做 FP4 训练相关工作，建议同时测 E2M1 和 E1M2/INT4 两条路径——UFP4 的论据要等独立复现，目前只有原团队数据。
如果在做长上下文 Agent 服务，UltraQuant 的 4-bit KV cache 路径值得跟踪 vLLM upstream，但短期生产环境建议保留 FP8 KV 作为 fallback。
2026 下半年的硬件会议（Hot Chips、SC26）会有更多 FP4 路线图信息——届时 UFP4 的"硬件需要 E1M2"是否被采纳会清晰。

参考文献

Zhao Q. et al. Rethinking Shrinkage Bias in LLM FP4 Pretraining: Geometric Origin, Systemic Impact, and UFP4 Recipe. arXiv:2606.20381, 2026.
Chakrabarti I. et al. UltraQuant: 4-bit KV Caching for Context-Heavy Agents. arXiv:2606.20474, 2026.