FP4 训练 vs FP4 推理:LLM 量化路线正在分叉
2026-06-22 · 每日调研 · 主题:FP4 量化 / LLM 训练与推理
为什么重要:2026 年 Blackwell B200 / Rubin 与 AMD MI350 已把 FP4 算力作为一等公民,但"FP4 训什么、推什么"还没收敛。今天同时出现的两篇论文(arXiv:2606.20381、arXiv:2606.20474)正好暴露了一个分裂——训练侧认为 E2M1(非均匀)是次优选择,主张改用均匀网格(E1M2/INT4);推理侧则已经在 CDNA4 上把 FP4 KV cache 落地到生产 serving。两个方向共同回答一个问题:4-bit 时代,硬件和数据格式谁应该先让步?
核心论文解读
1. UFP4 — Rethinking Shrinkage Bias in LLM FP4 Pretraining
arXiv:2606.20381cs.AI
作者:Qian Zhao、Kunlong Chen、Changxin Tian、Zhonghui Jiang 等(Jun Zhou 团队)
投稿日期:2026-06-18 · 18 页 · 12 图
- 核心问题:当前所有 FP4 硬件路径(NVIDIA Blackwell / Rubin、AMD MI350)都以 E2M1(1 位符号 + 2 位指数 + 1 位尾数)作为数据格式。论文指出 E2M1 的"非均匀格点"带来一个被忽视的系统性误差——Shrinkage Bias:因为可表示的 bin 在几何上不对称,所有量化误差都是负向的(round-down),不是零均值。
- 关键技术点:
- 误差传播分析:证明 Shrinkage Bias 是乘法累积的(不是加法)——所以层数越深、训练越长,损失越大;这解释了现有 E2M1 FP4 训练的"长尾不稳"现象。
- RHT 的双刃剑:Random Hadamard Transform 是当下 FP4 训练几乎必备的预处理,但论文显示它会放大 Shrinkage Bias 的方差,因为高频分量经过格点量化时被进一步"压扁"。
- UFP4 配方:改用均匀网格(E1M2 或 INT4)避开格点几何误差 → 把 RHT 的收益"还"回去;同时把随机舍入(stochastic rounding)只施加在反向传播的梯度 dY 上(而非三个 GEMM 全用),简化误差控制路径。
- 实验规模:Dense 1.5B、MoE 7.9B、MoE 124B 三档 long-run pretraining + scaling-law 验证,UFP4 在 BF16-relative loss 退化上持续优于 E2M1 baseline。
- 工程含义:呼吁未来加速器(Rubin 之后、CDNA5 之后)把 E1M2 / INT4 也作为一等公民支持,而不是只押注 E2M1。这是对 NVIDIA / AMD 硬件路线图的直接喊话。
- 局限性:
- 没有给出完整端到端 throughput 数字——只比 BF16 相对损失,没直接比 E2M1 FP4 的训练 step time。
- UFP4 在均匀网格下表达极值的能力弱于 E2M1,需要后续工作论证 outlier 处理(FP8 / FP16 异常值通道)是否够用。
- 论文没有提供开源代码(截至摘要未声明)。
2. UltraQuant — 4-bit KV Caching for Context-Heavy Agents
arXiv:2606.20474cs.LG
作者:Inesh Chakrabarti、David Limpus 等(AMD + UCLA + Purdue)
投稿日期:2026-06-18 · 11 页 · 9 图
- 核心问题:Agent 类工作负载(长 system prompt、多轮短对话、并发复用 prefix)对 KV cache 的压力前所未有——长 prefix 跨多轮复用,cache 命中率决定 TTFT,并发度决定吞吐。作者把 4-bit KV cache 推到 vLLM 级别的生产 serving。
- 关键技术点:
- TurboQuant 锚定:以 TurboQuant 风格的旋转 + codebook 量化作为"质量天花板";以 vLLM FP8 KV cache 作为部署 baseline。
- 4-bit 路径的工程细节:非对称 K/V 处理(K 比 V 更敏感,必须更精细)、Walsh-Hadamard 旋转、QJL(量化 Jacobian 损失)消除、block-scale 变体——四个旋钮共同保证 4-bit 不掉点。
- UltraQuant 路径:在 AMD CDNA4(MI355X 系列)上原生支持 FP8 query + FP4 KV tensor + UE8M0 group scale,走 native scaled-MFMA 指令路径——这是 GPU 厂商第一次把 4-bit KV cache 写到硬件 kernel 层。
- 实测数字:长上下文多轮 Agent workload,P50 TTFT 在 cache 压力最大的后半段 3.47× 加速(全程 2.3×),output throughput 1.63× over FP8 KV baseline。
- 工程含义:这不是"再一篇 KV cache 量化论文",而是 AMD 用自己的硬件重新定义了 KV cache 量化的性能边界——把"FP4 KV cache"从研究 demo 推到 vLLM-level 部署参考。
- 局限性:
- benchmark 集中在 AMD CDNA4,NVIDIA Blackwell 上的对应数字未提供(NV 的 FP4 KV 路径尚未公开 native kernel)。
- "长上下文多轮 Agent workload" 的具体任务、模型大小未在摘要披露,需要看正文确认泛化性。
- TTFT 3.47× 这个数字是 cache 压力最大的"late rounds",平摊到全部轮次只有 2.3×——落地时要看真实工作负载分布。
相关工作
| 方向 | 代表工作 | 关键差异 |
| FP4 训练基础 |
NVIDIA NVFP4 (Blackwell), AMD MXFP4 (MI350) |
都押注 E2M1 + block scaling factor;UFP4 主张再加 E1M2/INT4 |
| KV cache 量化 |
KIVI、KVQuant、Atom、QoQ |
多在 2-4 bit、INT 格式;UltraQuant 第一个走 FP4 + UE8M0 + CDNA4 native |
| 旋转 + 量化 |
TurboQuant、QuIP#、QuaRot |
用 Hadamard / 随机旋转消除 outlier;UFP4 指出 RHT 与 E2M1 格点交互放大偏差 |
| Agent serving |
vLLM、SGLang、Mooncake (PrefixCache) |
关注 prefix 复用、cache 命中率;UltraQuant 把这些 metric 纳入 KV cache 量化评估 |
关键交叉点:UFP4 和 UltraQuant 都用到 Hadamard 类旋转,但目标相反——UFP4 想抑制 RHT 与 E2M1 的误差交互,UltraQuant 想强化 Walsh-Hadamard 在 4-bit KV 上的 outlier 抑制。说明 Hadamard 旋转这个工具在量化里的角色,正在从"通用技巧"分化成"训练 vs 推理两套调参逻辑"。
我的判断
1. 训练侧:E2M1 不是终局
UFP4 的 Shrinkage Bias 分析是扎实的——把训练不稳归因到"格点几何不对称"这个一阶效应,而不是随机初始化或学习率这种二阶因素。这个解释力足以让 NVIDIA / AMD 在下一代硬件规划时考虑把 E1M2 / INT4 写进指令集。但短期(2026 H2)所有 FP4 训练还是只能在 E2M1 上跑,所以 UFP4 的实际工程落地路径是"软硬结合"——保留 FP4 计算,用软件模拟 E1M2 / INT4 路径。
2. 推理侧:4-bit KV cache 进入生产倒计时
UltraQuant 最重要的不是 3.47× 这个数字,而是它用 AMD CDNA4 的 native scaled-MFMA 走通了端到端 4-bit KV cache。一旦这个路径稳定,vLLM / SGLang 跟进,2026 下半年到 2027 H1,"4-bit KV cache 默认开启"会成为 Agent serving 的默认选项。NVIDIA 那边除非也公开 FP4 KV 的 native kernel,否则在 long-context agent 这块会被 AMD 的部署成熟度甩开一段。
3. 量化研究范式正在切换
2024-2025 的范式:在 FP16 / BF16 上做 INT8 / INT4 量化 → 关注"精度保持"。
2026 的范式:在 FP4 / FP6 上做"原生"训练和推理 → 关注"硬件-数据格式协同设计"。
UFP4 和 UltraQuant 的核心方法论都是从"硬件已经定了 → 我们去适配"切到"硬件可以改 → 我们告诉硬件该长什么样"。这是 LLM 量化研究从应用层向系统层下沉的标志。
实操提醒:
- 如果在做 FP4 训练相关工作,建议同时测 E2M1 和 E1M2/INT4 两条路径——UFP4 的论据要等独立复现,目前只有原团队数据。
- 如果在做长上下文 Agent 服务,UltraQuant 的 4-bit KV cache 路径值得跟踪 vLLM upstream,但短期生产环境建议保留 FP8 KV 作为 fallback。
- 2026 下半年的硬件会议(Hot Chips、SC26)会有更多 FP4 路线图信息——届时 UFP4 的"硬件需要 E1M2"是否被采纳会清晰。
参考文献
- Zhao Q. et al. Rethinking Shrinkage Bias in LLM FP4 Pretraining: Geometric Origin, Systemic Impact, and UFP4 Recipe. arXiv:2606.20381, 2026.
- Chakrabarti I. et al. UltraQuant: 4-bit KV Caching for Context-Heavy Agents. arXiv:2606.20474, 2026.