FP4 训练 vs FP4 推理:LLM 量化路线正在分叉

2026-06-22 · 每日调研 · 主题:FP4 量化 / LLM 训练与推理

为什么重要:2026 年 Blackwell B200 / Rubin 与 AMD MI350 已把 FP4 算力作为一等公民,但"FP4 训什么、推什么"还没收敛。今天同时出现的两篇论文(arXiv:2606.20381、arXiv:2606.20474)正好暴露了一个分裂——训练侧认为 E2M1(非均匀)是次优选择,主张改用均匀网格(E1M2/INT4);推理侧则已经在 CDNA4 上把 FP4 KV cache 落地到生产 serving。两个方向共同回答一个问题:4-bit 时代,硬件和数据格式谁应该先让步?

核心论文解读

1. UFP4 — Rethinking Shrinkage Bias in LLM FP4 Pretraining

arXiv:2606.20381cs.AI
作者:Qian Zhao、Kunlong Chen、Changxin Tian、Zhonghui Jiang 等(Jun Zhou 团队)
投稿日期:2026-06-18 · 18 页 · 12 图

2. UltraQuant — 4-bit KV Caching for Context-Heavy Agents

arXiv:2606.20474cs.LG
作者:Inesh Chakrabarti、David Limpus 等(AMD + UCLA + Purdue)
投稿日期:2026-06-18 · 11 页 · 9 图

相关工作

方向代表工作关键差异
FP4 训练基础 NVIDIA NVFP4 (Blackwell), AMD MXFP4 (MI350) 都押注 E2M1 + block scaling factor;UFP4 主张再加 E1M2/INT4
KV cache 量化 KIVI、KVQuant、Atom、QoQ 多在 2-4 bit、INT 格式;UltraQuant 第一个走 FP4 + UE8M0 + CDNA4 native
旋转 + 量化 TurboQuant、QuIP#、QuaRot 用 Hadamard / 随机旋转消除 outlier;UFP4 指出 RHT 与 E2M1 格点交互放大偏差
Agent serving vLLM、SGLang、Mooncake (PrefixCache) 关注 prefix 复用、cache 命中率;UltraQuant 把这些 metric 纳入 KV cache 量化评估
关键交叉点:UFP4 和 UltraQuant 都用到 Hadamard 类旋转,但目标相反——UFP4 想抑制 RHT 与 E2M1 的误差交互,UltraQuant 想强化 Walsh-Hadamard 在 4-bit KV 上的 outlier 抑制。说明 Hadamard 旋转这个工具在量化里的角色,正在从"通用技巧"分化成"训练 vs 推理两套调参逻辑"。

我的判断

1. 训练侧:E2M1 不是终局

UFP4 的 Shrinkage Bias 分析是扎实的——把训练不稳归因到"格点几何不对称"这个一阶效应,而不是随机初始化或学习率这种二阶因素。这个解释力足以让 NVIDIA / AMD 在下一代硬件规划时考虑把 E1M2 / INT4 写进指令集。但短期(2026 H2)所有 FP4 训练还是只能在 E2M1 上跑,所以 UFP4 的实际工程落地路径是"软硬结合"——保留 FP4 计算,用软件模拟 E1M2 / INT4 路径。

2. 推理侧:4-bit KV cache 进入生产倒计时

UltraQuant 最重要的不是 3.47× 这个数字,而是它用 AMD CDNA4 的 native scaled-MFMA 走通了端到端 4-bit KV cache。一旦这个路径稳定,vLLM / SGLang 跟进,2026 下半年到 2027 H1,"4-bit KV cache 默认开启"会成为 Agent serving 的默认选项。NVIDIA 那边除非也公开 FP4 KV 的 native kernel,否则在 long-context agent 这块会被 AMD 的部署成熟度甩开一段。

3. 量化研究范式正在切换

2024-2025 的范式:在 FP16 / BF16 上做 INT8 / INT4 量化 → 关注"精度保持"。
2026 的范式:在 FP4 / FP6 上做"原生"训练和推理 → 关注"硬件-数据格式协同设计"。

UFP4 和 UltraQuant 的核心方法论都是从"硬件已经定了 → 我们去适配"切到"硬件可以改 → 我们告诉硬件该长什么样"。这是 LLM 量化研究从应用层向系统层下沉的标志。

实操提醒

参考文献

  1. Zhao Q. et al. Rethinking Shrinkage Bias in LLM FP4 Pretraining: Geometric Origin, Systemic Impact, and UFP4 Recipe. arXiv:2606.20381, 2026.
  2. Chakrabarti I. et al. UltraQuant: 4-bit KV Caching for Context-Heavy Agents. arXiv:2606.20474, 2026.