测试时搜索时代的后训练范式转变:VPO 与多样性优化

为什么重要:推理时扩展(test-time compute scaling)正在成为 LLM 提升性能的核心路径,AlphaEvolve 等系统通过多样化奖励函数搜索解空间。然而,现有后训练范式优化单一标量奖励,导致模型输出低熵、无法满足搜索的多样性需求。本文提出的 VPO 首次将「多样性」作为训练目标而非事后补救,是后训练目标层面的范式转变。

核心论文解读

Vector Policy Optimization (VPO)

arXiv: 2605.22817 · cs.LG · 2026-05-22

作者:Ryan Bahlous-Boldi 等

链接arXiv:2605.22817

核心贡献

关键结果

结论:当 test-time search 成为标准范式,优化「多样性」而非「单峰值性能」可能需要成为后训练的默认目标。

局限性

ConvexTok:用凸松弛构建最优词表

arXiv: 2605.22821 · cs.CL · 2026-05-21

作者:Jan Tempus 等

链接arXiv:2605.22821

核心贡献

关键结果

结论:ConvexTok 首次将 tokenization 优化问题的全局最优性纳入理论保障,是词表构建方法论层面的新架构。

局限性

Kairos:时间有序预训练改善知识时效性

arXiv: 2605.22769 · cs.CL · Kyutai Labs · 2026-05-21

作者:Hippolyte Pilchen 等

链接arXiv:2605.22769

资源HuggingFace checkpoints

核心贡献

关键结果

局限性

相关工作

方向代表工作与 VPO 的关系
Test-time compute scalingAlphaEvolve, OpenAI o3/o4VPO 直接解决这类搜索的多样性需求
RL 后训练GRPO, PPO, DPOVPO 是 GRPO 的标量→向量扩展
TokenizationBPE, UnigramLM, SentencePieceConvexTok 是首个全局最优可证明的词表构建方法
时间感知 LLMKAIROS, ChronoMedKG从预训练数据组织层面解决知识时效性问题
多目标 RLMoG, Pareto RLVPO 借鉴多目标优化思想应用于 LLM 后训练

我的判断

最重要:VPO 是本期最有影响力的一篇。它指向一个根本性转变——当 LLM 被嵌入 search/evolution 管道时,「多样性」而非「单点性能」需要成为训练目标。这与 o3/o4 展示的 test-time 扩展范式直接呼应,可能是 2026 年后训练研究的핵심 分叉口。

三个值得关注的趋势:

  1. 后训练目标函数正在被重构:从「最大化单一奖励」到「覆盖多样化解空间」,VPO 开了第一枪。
  2. Tokenization 进入优化理论时代:ConvexTok 打破了 BPE 多年的工程惯性,首次给出可证明最优的词表构建。但工业落地成本(凸优化求解效率)是关键。
  3. 预训练数据组织本身是可优化的变量:Kairos 证明打乱数据不是中性操作,时间顺序对知识时效性有可测量的影响。这对构建「活」的 LLM 有直接意义。
注意事项:三篇论文均未提供可复现代码(VPO 和 ConvexTok),实际影响力需等待开源复现验证。Kyutai Labs 的 Kairos 是唯一提供 checkpoint 的,但 Kyutai 本身是欧洲研究机构,影响力传播路径可能与工业实验室不同。