测试时搜索时代的后训练范式转变:VPO 与多样性优化
为什么重要:推理时扩展(test-time compute scaling)正在成为 LLM 提升性能的核心路径,AlphaEvolve 等系统通过多样化奖励函数搜索解空间。然而,现有后训练范式优化单一标量奖励,导致模型输出低熵、无法满足搜索的多样性需求。本文提出的 VPO 首次将「多样性」作为训练目标而非事后补救,是后训练目标层面的范式转变。
核心论文解读
Vector Policy Optimization (VPO)
arXiv: 2605.22817 · cs.LG · 2026-05-22
作者:Ryan Bahlous-Boldi 等
链接:arXiv:2605.22817
核心贡献:
- 问题:标准 RL 后训练(如 GRPO)优化预定义标量奖励 → 输出分布熵低 → 在推理时搜索(如 AlphaEvolve)中无法提供足够的多样化解空间。
- 方法:VPO 将奖励从标量扩展为向量,每个维度对应不同任务目标(如代码生成的多个测试用例正确率、多个用户画像的偏好)。VPO 训练策略显式预测下游奖励函数的多样性,输出覆盖整个向量奖励空间的解集合。
- 技术细节:VPO 本质上是 GRPO 优势估计器的直接替代,但将单标量优势替换为向量优势,使个体解在向量奖励空间的不同 trade-off 上专化。
关键结果:
- 4 个任务上,VPO 匹配或超越最强标量 RL 基线(pass@k, best@k);搜索预算越大,优势越显著。
- 在进化搜索场景下,GRPO 模型完全无法解决的问题,VPO 模型可以解决。
- 训练目标从标量优化转向多样性优化,是后训练目标函数层面的根本性转变。
结论:当 test-time search 成为标准范式,优化「多样性」而非「单峰值性能」可能需要成为后训练的默认目标。
局限性:
- 实验在 1.5B 参数规模,6B+ 模型上的泛化性未验证。
- 多目标优化的 pareto front 控制依赖奖励向量设计,工程实践中奖励工程成本不低。
- 论文未开源,对复现构成障碍。
ConvexTok:用凸松弛构建最优词表
arXiv: 2605.22821 · cs.CL · 2026-05-21
作者:Jan Tempus 等
链接:arXiv:2605.22821
核心贡献:
- 问题:BPE / Unigram 等主流 tokenization 算法本质是贪心算法,只做局部最优决策,无法保证全局词表质量。
- 方法:将分词器构建重新表述为整数规划(Integer Program),通过凸优化工具求解,得到的新算法命名为 ConvexTok。
- 可证明性:LP 松弛在实践中接近整数解,可证明得到接近最优的词表。
关键结果:
- 在 40,960+ 词表大小下,ConvexTok 相比 BPE/WordPiece/UnigramLM 减少超过 11% 的 token 数量。
- 在 1.5B 参数 LM 训练中,CORE 分数最高,领先基线 2.6%–7.6%。
- 提供了下界证明:常见词表大小下,ConvexTok 词表在目标函数下与最优解差距在 1% 以内。
结论:ConvexTok 首次将 tokenization 优化问题的全局最优性纳入理论保障,是词表构建方法论层面的新架构。
局限性:
- 训练时间随分词树数量二次扩展,大规模工业部署成本待评估。
- 目前仅在英文文本上验证,多语言场景未测试。
- 无开源代码。
Kairos:时间有序预训练改善知识时效性
arXiv: 2605.22769 · cs.CL · Kyutai Labs · 2026-05-21
作者:Hippolyte Pilchen 等
链接:arXiv:2605.22769
资源:HuggingFace checkpoints
核心贡献:
- 问题:现有 LLM 在随机打乱的预训练语料上训练,知识「冻结」在训练截止时间,无法正确关联事实与对应的时间段。
- 方法:按时间顺序(而非随机打乱)组织 Common Crawl 快照进行预训练,使模型学习知识的时间衰减和积累模式。
- 数据:7,000+ 时间锚定问题 benchmark (ChronoTQA);460,497 时间感知三元组 (ChronoMedKG)。
关键结果:
- 时间有序预训练的模型在保持通用语言理解能力的同时,知识时效性显著优于打乱预训练基线。
- 打乱预训练在旧数据上达到峰值(可能是重复学习导致),时间有序预训练在最新数据上表现更好。
- RAG 增强实验:ChronoMedKG 检索能恢复 47–65% 的长尾失败,显著优于 HPOA-RAG(17–29%)。
局限性:
- 6B 参数模型实验,扩展到更大模型是否仍有相同规律待验证。
- 时间有序预训练对训练基础设施有额外要求(数据管道需保留时间戳)。
- 连续学习(continual learning)的长期效果未充分探索。
相关工作
| 方向 | 代表工作 | 与 VPO 的关系 |
| Test-time compute scaling | AlphaEvolve, OpenAI o3/o4 | VPO 直接解决这类搜索的多样性需求 |
| RL 后训练 | GRPO, PPO, DPO | VPO 是 GRPO 的标量→向量扩展 |
| Tokenization | BPE, UnigramLM, SentencePiece | ConvexTok 是首个全局最优可证明的词表构建方法 |
| 时间感知 LLM | KAIROS, ChronoMedKG | 从预训练数据组织层面解决知识时效性问题 |
| 多目标 RL | MoG, Pareto RL | VPO 借鉴多目标优化思想应用于 LLM 后训练 |
我的判断
最重要:VPO 是本期最有影响力的一篇。它指向一个根本性转变——当 LLM 被嵌入 search/evolution 管道时,「多样性」而非「单点性能」需要成为训练目标。这与 o3/o4 展示的 test-time 扩展范式直接呼应,可能是 2026 年后训练研究的핵심 分叉口。
三个值得关注的趋势:
- 后训练目标函数正在被重构:从「最大化单一奖励」到「覆盖多样化解空间」,VPO 开了第一枪。
- Tokenization 进入优化理论时代:ConvexTok 打破了 BPE 多年的工程惯性,首次给出可证明最优的词表构建。但工业落地成本(凸优化求解效率)是关键。
- 预训练数据组织本身是可优化的变量:Kairos 证明打乱数据不是中性操作,时间顺序对知识时效性有可测量的影响。这对构建「活」的 LLM 有直接意义。
注意事项:三篇论文均未提供可复现代码(VPO 和 ConvexTok),实际影响力需等待开源复现验证。Kyutai Labs 的 Kairos 是唯一提供 checkpoint 的,但 Kyutai 本身是欧洲研究机构,影响力传播路径可能与工业实验室不同。