PPO/GRPO 之外:替代范式重塑 LLM 后训练
每日技术热点调研 · 2026-06-02 · 来源:ArXiv cs.AI / cs.CL(2026-05-29 入库)
为什么重要:近一周 arXiv 上出现了一组直指 PPO/GRPO 痛点的工作——不再依赖采样-打分-反向传播的范式,而是从权重空间、轨迹长度、推理结构三个维度切入,用更低成本获得可部署的单模型收益。这是后训练栈从"RL 微调"走向"结构化组装"的关键信号。
核心结论:2026 年 5 月底的几篇论文共同指向一个判断——RL-based post-training(PPO/GRPO)的边际收益正在被三种新范式稀释:权重空间融合(CoRP)、轨迹截断(TOPD/POPD)、结构显式化(LinTree、Graph-LLaDA 的 λ-scaled structural decoding)。
核心论文解读
1. CoRP:用权重空间算子替代推理时集成
- 论文:Consolidating Rewarded Perturbations for LLM Post-Training(arXiv:2605.31494,2026-05-29,cs.CL + cs.LG)
- 作者:Zheyu Zhang 等
- 核心问题:RandOpt 之类的方法在权重空间采样高斯扰动,挑选 top-K 受奖励的"专才"模型,推理时需要 K 次前向传播。这无法扩展到 free-form generation,部署成本线性增长。
- 关键方法:
- 对 25 个模型-任务对做 split-half 分析,发现受奖励的扰动群体普遍存在低秩结构;
- 提出 CoRP(Consolidating Rewarded Perturbations):一个无梯度的算子,把 K 个受奖励的扰动折叠成单模型;
- 三步组合:reward-weighted aggregation + compatibility-aware reweighting + held-out validation gate;
- 整个过程无梯度回传到语言模型本体。
- 实验结果(5 个模型 0.5B-8B,5 个任务覆盖数学/代码/创意写作):
| 指标 | 数值 |
| 相对基座平均提升 | +8.1 分 |
| 相对 RandOpt 推理时单次前向 | +6.5 分(仅 1/10 扰动预算) |
| 相对 RandOpt 50-pass 多数投票 | 恢复 >50% 收益 |
| 部署成本 | 1 次前向 / 样本 |
- 为什么有意思:第一次让"权重空间集成"变成可部署的单模型产物,且不依赖 RL 训练。隐含的工程意义:把"测试时算力换质量"的范式压回训练时一次性算力。
- 局限性:
- split-half 低秩结构在 25 对组合上观察到,外推到万亿参数或完全不同的奖励分布时是否依然成立,作者自己未做承诺;
- compatibility-aware reweighting 需要一个 held-out 验证集——监督信号从"reward"转到"reward + 验证集";
- 完全没有动模型参数,对"已学到的能力"是组合而非扩展,奖励信号偏弱时上限有限。
2. TOPD / POPD:把"完整轨迹"变成"可截断轨迹"
- 论文:Are Full Rollouts Necessary for On-Policy Distillation?(arXiv:2605.31490 v2,2026-06-01,cs.CL)
- 作者:Yaocheng Zhang 等
- 核心问题:On-Policy Distillation(OPD)让学生在自生成轨迹上获得密集的教师反馈,标准做法是 full rollout。但训练早期轨迹尾部的教师反馈质量不可靠,又贵又无效。
- 关键观察:与 RLVR 不同,OPD 不需要最终答案奖励就能提供学习信号——这是它能截断的根据。
- 两个简单策略:
| 方法 | 做法 | 效果 |
| POPD(Progressive OPD) | 训练中渐进扩展轨迹长度 | 训练效率 3× |
| TOPD(Truncated OPD) | 永久在 10% 长度的截断轨迹上做蒸馏 | 匹配 OPD 性能,wall-clock 与显存大幅下降 |
- 为什么有意思:作者把一个看起来"必须做满"的训练选择降级为超参数,且发现截断 90% 几乎不掉点——这意味着行业里 OPD 的算力开销一直在被浪费。
- 局限性:
- 实验仅在数学推理任务上验证;代码、创意写作、agentic 任务里"前期 token 即可信"的假设未必成立;
- "10% 截断"是超参而非自适应——不同任务/不同训练阶段的最优截断点可能差几个数量级;
- POPD 的渐进调度策略仍是启发式,缺少理论收敛性分析。
两条路径的互补性:CoRP 处理"多模型怎么合",TOPD 处理"单条轨迹要多少"。两者都绕开了 PPO/GRPO 的策略梯度回路,是 post-training 栈工程化的两个独立杠杆。
相关工作
LinTree:让搜索历史显式成"树"
- 论文:Improving LLM Reasoning with Explicitly Structured Search Histories(arXiv:2605.31492,2026-05-29,cs.AI)
- 作者:Liwei Kang 等
- 核心发现:在 Blocks World、grid Navigation、Sokoban 三个受控推理环境上,原始 trace-conditioned 推理并不能稳定击败 LLM-heuristic 引导的 best-first search。原因:LLM 在 backtrack / 切换分支时,trace 不会显式指出回溯到哪个父节点。
- 方法:在 trace 中加入简单的父指针,把隐式搜索树显式化为 LinTree(Linearized Tree)结构。
- 效果:任务性能与搜索效率同时超过隐式推理模型和 LLM-heuristic best-first search。
- 与本期主题的连接:当推理时计算(test-time compute)越来越被视为"可消耗资源",结构显式化比"让模型自己推理"更可控。LinTree 是结构侧、CoRP/TOPD 是训练侧,三个工作在同一信号上共振。
Graph-LLaDA:MDLM 的失败模式与无训练修复
- 论文:What Gets Unmasked First? Trajectory Analysis of Diffusion Models for Graph-to-Text Generation(arXiv:2605.31564,2026-05-29,cs.CL + cs.AI)
- 作者:Qing Wang 等
- 三个贡献:
- 首次系统分析 MDLM(Masked Diffusion LM)的生成轨迹——发现与自回归 LM 不同,MDLM 天然先解实体,再解关系词与功能词,结构 token 最后;
- 识别 SFT 的未被记录的失败模式:SFT 会过早锚定句末结构 token,在解码早期就锁定输出长度,导致省略与幻觉;
- 提出 λ-scaled structural decoding——训练自由的推理时修改,对结构 token 的置信度做下采样,恢复 +9.4 BLEU-4。
- 副产物:Graph-LLaDA——把 Graph Transformer encoder 接入 LLaDA 的解码过程,在 LAGRANGE 跨数据集评测上揭示了以往 baseline 对数据集模式的过拟合问题。
- 局限:只在 graph-to-text 一个垂直任务上验证,结构 token 偏置是否在其他长文档生成上仍然"过早锁定"未做横向 benchmark。
STR / TripletQL:表格理解的结构化重写
其他值得留意的边角信号
| 论文 | 看点 | 链接 |
| PARL(Personalized Evaluation as Learning) | 把个性化评估公式化为学习问题,rubric 感应 + 自验证机制 | arXiv:2605.31545 |
| UniAudio-Token(Tencent) | 让单 codebook 语义 tokenizer 保留通用音频感知;code + checkpoint 公开 | arXiv:2605.31521 |
| AutoSci(北大 Bin Cui 团队) | memory-centric 科研全生命周期 agentic system | arXiv:2605.31468 |
| Question-Answering as Hidden State Probing | 把"提问"作为推理时干预;发现检测 vs 恢复之间的鸿沟 | arXiv:2605.31561 |
我的判断
几个反共识观点:
- PPO/GRPO 不会消失,但会"内嵌化"。CoRP、TOPD/POPD 都不是 RL 替代品——它们是 RL 上游/下游的结构优化。未来 12 个月,看到的会是"RL + 权重空间融合 + 轨迹调度"三件套并用,单一范式的话语权会被稀释。
- 训练自由的推理时修复(λ-scaled structural decoding、LinTree、CoRP 的验证门)正在成为新的"低成本红利区"。这些方法不更新参数,部署成本几乎为零,对中小团队极其友好——值得在内部模型上做对照实验。
- "权重空间"和"推理时"之间的边界在模糊。CoRP 把多次推理的集成压回一次推理;LinTree 把隐式 trace 显式化以提升一次推理的效率;TOPD 把多次训练步压缩成更少步。三件事本质都是"用更便宜的算力换同样的质量"——经济模型在变,而不是模型架构在变。
- 结构化数据(表格、图、树)的红利期刚开始。STR/TripletQL 和 Graph-LLaDA 同时出现在本期不是巧合:当模型本体变贵,把输入压成结构化表示就变得比"再训一个更大的模型"更划算。值得关注的子方向:结构化 reranking、查询感知的渲染路由。
落地建议(按 ROI 排序):
- 优先试 CoRP 类权重空间融合:无需梯度,部署成本不变,对已有 RLHF 基座的边际提升最稳;
- 在 数学/代码 OPD 流程上加 TOPD 截断——几乎是"白送" 3× 效率;
- 表格/图问答场景下用 STR 协议重写输入,token 成本下降直接换上下文窗口;
- 推理链长的 agent 任务上观察 LinTree 显式父指针是否能稳压隐式 trace——尤其是 multi-branch planning 类任务。