测试时搜索时代的后训练范式转变：VPO 与多样性优化

为什么重要：推理时扩展（test-time compute scaling）正在成为 LLM 提升性能的核心路径，AlphaEvolve 等系统通过多样化奖励函数搜索解空间。然而，现有后训练范式优化单一标量奖励，导致模型输出低熵、无法满足搜索的多样性需求。本文提出的 VPO 首次将「多样性」作为训练目标而非事后补救，是后训练目标层面的范式转变。

核心论文解读

Vector Policy Optimization (VPO)

arXiv: 2605.22817 · cs.LG · 2026-05-22

作者：Ryan Bahlous-Boldi 等

链接：arXiv:2605.22817

核心贡献：

问题：标准 RL 后训练（如 GRPO）优化预定义标量奖励 → 输出分布熵低 → 在推理时搜索（如 AlphaEvolve）中无法提供足够的多样化解空间。
方法：VPO 将奖励从标量扩展为向量，每个维度对应不同任务目标（如代码生成的多个测试用例正确率、多个用户画像的偏好）。VPO 训练策略显式预测下游奖励函数的多样性，输出覆盖整个向量奖励空间的解集合。
技术细节：VPO 本质上是 GRPO 优势估计器的直接替代，但将单标量优势替换为向量优势，使个体解在向量奖励空间的不同 trade-off 上专化。

关键结果：

4 个任务上，VPO 匹配或超越最强标量 RL 基线（pass@k, best@k）；搜索预算越大，优势越显著。
在进化搜索场景下，GRPO 模型完全无法解决的问题，VPO 模型可以解决。
训练目标从标量优化转向多样性优化，是后训练目标函数层面的根本性转变。

结论：当 test-time search 成为标准范式，优化「多样性」而非「单峰值性能」可能需要成为后训练的默认目标。

局限性：

实验在 1.5B 参数规模，6B+ 模型上的泛化性未验证。
多目标优化的 pareto front 控制依赖奖励向量设计，工程实践中奖励工程成本不低。
论文未开源，对复现构成障碍。

ConvexTok：用凸松弛构建最优词表

arXiv: 2605.22821 · cs.CL · 2026-05-21

作者：Jan Tempus 等

链接：arXiv:2605.22821

核心贡献：

问题：BPE / Unigram 等主流 tokenization 算法本质是贪心算法，只做局部最优决策，无法保证全局词表质量。
方法：将分词器构建重新表述为整数规划（Integer Program），通过凸优化工具求解，得到的新算法命名为 ConvexTok。
可证明性：LP 松弛在实践中接近整数解，可证明得到接近最优的词表。

关键结果：

在 40,960+ 词表大小下，ConvexTok 相比 BPE/WordPiece/UnigramLM 减少超过 11% 的 token 数量。
在 1.5B 参数 LM 训练中，CORE 分数最高，领先基线 2.6%–7.6%。
提供了下界证明：常见词表大小下，ConvexTok 词表在目标函数下与最优解差距在 1% 以内。

结论：ConvexTok 首次将 tokenization 优化问题的全局最优性纳入理论保障，是词表构建方法论层面的新架构。

局限性：

训练时间随分词树数量二次扩展，大规模工业部署成本待评估。
目前仅在英文文本上验证，多语言场景未测试。
无开源代码。

Kairos：时间有序预训练改善知识时效性

arXiv: 2605.22769 · cs.CL · Kyutai Labs · 2026-05-21

作者：Hippolyte Pilchen 等

链接：arXiv:2605.22769

资源：HuggingFace checkpoints

核心贡献：

问题：现有 LLM 在随机打乱的预训练语料上训练，知识「冻结」在训练截止时间，无法正确关联事实与对应的时间段。
方法：按时间顺序（而非随机打乱）组织 Common Crawl 快照进行预训练，使模型学习知识的时间衰减和积累模式。
数据：7,000+ 时间锚定问题 benchmark (ChronoTQA)；460,497 时间感知三元组 (ChronoMedKG)。

关键结果：

时间有序预训练的模型在保持通用语言理解能力的同时，知识时效性显著优于打乱预训练基线。
打乱预训练在旧数据上达到峰值（可能是重复学习导致），时间有序预训练在最新数据上表现更好。
RAG 增强实验：ChronoMedKG 检索能恢复 47–65% 的长尾失败，显著优于 HPOA-RAG（17–29%）。

局限性：

6B 参数模型实验，扩展到更大模型是否仍有相同规律待验证。
时间有序预训练对训练基础设施有额外要求（数据管道需保留时间戳）。
连续学习（continual learning）的长期效果未充分探索。

方向	代表工作	与 VPO 的关系
Test-time compute scaling	AlphaEvolve, OpenAI o3/o4	VPO 直接解决这类搜索的多样性需求
RL 后训练	GRPO, PPO, DPO	VPO 是 GRPO 的标量→向量扩展
Tokenization	BPE, UnigramLM, SentencePiece	ConvexTok 是首个全局最优可证明的词表构建方法
时间感知 LLM	KAIROS, ChronoMedKG	从预训练数据组织层面解决知识时效性问题
多目标 RL	MoG, Pareto RL	VPO 借鉴多目标优化思想应用于 LLM 后训练

测试时搜索时代的后训练范式转变：VPO 与多样性优化

核心论文解读

Vector Policy Optimization (VPO)

ConvexTok：用凸松弛构建最优词表

Kairos：时间有序预训练改善知识时效性

相关工作

我的判断