PPO/GRPO 之外：替代范式重塑 LLM 后训练

每日技术热点调研 · 2026-06-02 · 来源：ArXiv cs.AI / cs.CL（2026-05-29 入库）

为什么重要：近一周 arXiv 上出现了一组直指 PPO/GRPO 痛点的工作——不再依赖采样-打分-反向传播的范式，而是从权重空间、轨迹长度、推理结构三个维度切入，用更低成本获得可部署的单模型收益。这是后训练栈从"RL 微调"走向"结构化组装"的关键信号。

核心结论：2026 年 5 月底的几篇论文共同指向一个判断——RL-based post-training（PPO/GRPO）的边际收益正在被三种新范式稀释：权重空间融合（CoRP）、轨迹截断（TOPD/POPD）、结构显式化（LinTree、Graph-LLaDA 的 λ-scaled structural decoding）。

核心论文解读

1. CoRP：用权重空间算子替代推理时集成

论文：Consolidating Rewarded Perturbations for LLM Post-Training（arXiv:2605.31494，2026-05-29，cs.CL + cs.LG）
作者：Zheyu Zhang 等
核心问题：RandOpt 之类的方法在权重空间采样高斯扰动，挑选 top-K 受奖励的"专才"模型，推理时需要 K 次前向传播。这无法扩展到 free-form generation，部署成本线性增长。
关键方法：
- 对 25 个模型-任务对做 split-half 分析，发现受奖励的扰动群体普遍存在低秩结构；
- 提出 CoRP（Consolidating Rewarded Perturbations）：一个无梯度的算子，把 K 个受奖励的扰动折叠成单模型；
- 三步组合：reward-weighted aggregation + compatibility-aware reweighting + held-out validation gate；
- 整个过程无梯度回传到语言模型本体。

实验结果（5 个模型 0.5B-8B，5 个任务覆盖数学/代码/创意写作）：

指标	数值
相对基座平均提升	+8.1 分
相对 RandOpt 推理时单次前向	+6.5 分（仅 1/10 扰动预算）
相对 RandOpt 50-pass 多数投票	恢复 >50% 收益
部署成本	1 次前向 / 样本

为什么有意思：第一次让"权重空间集成"变成可部署的单模型产物，且不依赖 RL 训练。隐含的工程意义：把"测试时算力换质量"的范式压回训练时一次性算力。
局限性：
- split-half 低秩结构在 25 对组合上观察到，外推到万亿参数或完全不同的奖励分布时是否依然成立，作者自己未做承诺；
- compatibility-aware reweighting 需要一个 held-out 验证集——监督信号从"reward"转到"reward + 验证集"；
- 完全没有动模型参数，对"已学到的能力"是组合而非扩展，奖励信号偏弱时上限有限。

2. TOPD / POPD：把"完整轨迹"变成"可截断轨迹"

论文：Are Full Rollouts Necessary for On-Policy Distillation?（arXiv:2605.31490 v2，2026-06-01，cs.CL）
作者：Yaocheng Zhang 等
核心问题：On-Policy Distillation（OPD）让学生在自生成轨迹上获得密集的教师反馈，标准做法是 full rollout。但训练早期轨迹尾部的教师反馈质量不可靠，又贵又无效。
关键观察：与 RLVR 不同，OPD 不需要最终答案奖励就能提供学习信号——这是它能截断的根据。

两个简单策略：

方法	做法	效果
POPD（Progressive OPD）	训练中渐进扩展轨迹长度	训练效率 3×
TOPD（Truncated OPD）	永久在 10% 长度的截断轨迹上做蒸馏	匹配 OPD 性能，wall-clock 与显存大幅下降

为什么有意思：作者把一个看起来"必须做满"的训练选择降级为超参数，且发现截断 90% 几乎不掉点——这意味着行业里 OPD 的算力开销一直在被浪费。
局限性：
- 实验仅在数学推理任务上验证；代码、创意写作、agentic 任务里"前期 token 即可信"的假设未必成立；
- "10% 截断"是超参而非自适应——不同任务/不同训练阶段的最优截断点可能差几个数量级；
- POPD 的渐进调度策略仍是启发式，缺少理论收敛性分析。

两条路径的互补性：CoRP 处理"多模型怎么合"，TOPD 处理"单条轨迹要多少"。两者都绕开了 PPO/GRPO 的策略梯度回路，是 post-training 栈工程化的两个独立杠杆。

相关工作

LinTree：让搜索历史显式成"树"

论文：Improving LLM Reasoning with Explicitly Structured Search Histories（arXiv:2605.31492，2026-05-29，cs.AI）
作者：Liwei Kang 等
核心发现：在 Blocks World、grid Navigation、Sokoban 三个受控推理环境上，原始 trace-conditioned 推理并不能稳定击败 LLM-heuristic 引导的 best-first search。原因：LLM 在 backtrack / 切换分支时，trace 不会显式指出回溯到哪个父节点。
方法：在 trace 中加入简单的父指针，把隐式搜索树显式化为 LinTree（Linearized Tree）结构。
效果：任务性能与搜索效率同时超过隐式推理模型和 LLM-heuristic best-first search。
与本期主题的连接：当推理时计算（test-time compute）越来越被视为"可消耗资源"，结构显式化比"让模型自己推理"更可控。LinTree 是结构侧、CoRP/TOPD 是训练侧，三个工作在同一信号上共振。

Graph-LLaDA：MDLM 的失败模式与无训练修复

论文：What Gets Unmasked First? Trajectory Analysis of Diffusion Models for Graph-to-Text Generation（arXiv:2605.31564，2026-05-29，cs.CL + cs.AI）
作者：Qing Wang 等
三个贡献：
1. 首次系统分析 MDLM（Masked Diffusion LM）的生成轨迹——发现与自回归 LM 不同，MDLM 天然先解实体，再解关系词与功能词，结构 token 最后；
2. 识别 SFT 的未被记录的失败模式：SFT 会过早锚定句末结构 token，在解码早期就锁定输出长度，导致省略与幻觉；
3. 提出 λ-scaled structural decoding——训练自由的推理时修改，对结构 token 的置信度做下采样，恢复 +9.4 BLEU-4。
副产物：Graph-LLaDA——把 Graph Transformer encoder 接入 LLaDA 的解码过程，在 LAGRANGE 跨数据集评测上揭示了以往 baseline 对数据集模式的过拟合问题。
局限：只在 graph-to-text 一个垂直任务上验证，结构 token 偏置是否在其他长文档生成上仍然"过早锁定"未做横向 benchmark。

STR / TripletQL：表格理解的结构化重写

论文：Semantic Triplet Restoration: A Novel Protocol for Hierarchical Table Understanding in Large Language Models（arXiv:2605.31550，2026-05-29，cs.CL）
作者：Yibin Zhao 等
思路：把每个 cell 重写为 <item path, feature path, value> 三元组，用 TripletQL（轻量级 query-aware 路由器）按问题选择渲染/过滤的子集。
效果：在中英四个 Table-QA benchmark 上匹配或超过 HTML baseline，输入 token 更少；小模型、长上下文上优势更明显。
代码：已开源（github.com/Phoenix-ni/STR）。

其他值得留意的边角信号

论文	看点	链接
PARL（Personalized Evaluation as Learning）	把个性化评估公式化为学习问题，rubric 感应 + 自验证机制	arXiv:2605.31545
UniAudio-Token（Tencent）	让单 codebook 语义 tokenizer 保留通用音频感知；code + checkpoint 公开	arXiv:2605.31521
AutoSci（北大 Bin Cui 团队）	memory-centric 科研全生命周期 agentic system	arXiv:2605.31468
Question-Answering as Hidden State Probing	把"提问"作为推理时干预；发现检测 vs 恢复之间的鸿沟	arXiv:2605.31561

我的判断

几个反共识观点：

PPO/GRPO 不会消失，但会"内嵌化"。CoRP、TOPD/POPD 都不是 RL 替代品——它们是 RL 上游/下游的结构优化。未来 12 个月，看到的会是"RL + 权重空间融合 + 轨迹调度"三件套并用，单一范式的话语权会被稀释。
训练自由的推理时修复（λ-scaled structural decoding、LinTree、CoRP 的验证门）正在成为新的"低成本红利区"。这些方法不更新参数，部署成本几乎为零，对中小团队极其友好——值得在内部模型上做对照实验。
"权重空间"和"推理时"之间的边界在模糊。CoRP 把多次推理的集成压回一次推理；LinTree 把隐式 trace 显式化以提升一次推理的效率；TOPD 把多次训练步压缩成更少步。三件事本质都是"用更便宜的算力换同样的质量"——经济模型在变，而不是模型架构在变。
结构化数据（表格、图、树）的红利期刚开始。STR/TripletQL 和 Graph-LLaDA 同时出现在本期不是巧合：当模型本体变贵，把输入压成结构化表示就变得比"再训一个更大的模型"更划算。值得关注的子方向：结构化 reranking、查询感知的渲染路由。

落地建议（按 ROI 排序）：
优先试 CoRP 类权重空间融合：无需梯度，部署成本不变，对已有 RLHF 基座的边际提升最稳；
在 数学/代码 OPD 流程上加 TOPD 截断——几乎是"白送" 3× 效率；
表格/图问答场景下用 STR 协议重写输入，token 成本下降直接换上下文窗口；
推理链长的 agent 任务上观察 LinTree 显式父指针是否能稳压隐式 trace——尤其是 multi-branch planning 类任务。