PPO/GRPO 之外:替代范式重塑 LLM 后训练

每日技术热点调研 · 2026-06-02 · 来源:ArXiv cs.AI / cs.CL(2026-05-29 入库)

为什么重要:近一周 arXiv 上出现了一组直指 PPO/GRPO 痛点的工作——不再依赖采样-打分-反向传播的范式,而是从权重空间、轨迹长度、推理结构三个维度切入,用更低成本获得可部署的单模型收益。这是后训练栈从"RL 微调"走向"结构化组装"的关键信号。

核心结论:2026 年 5 月底的几篇论文共同指向一个判断——RL-based post-training(PPO/GRPO)的边际收益正在被三种新范式稀释:权重空间融合(CoRP)、轨迹截断(TOPD/POPD)、结构显式化(LinTree、Graph-LLaDA 的 λ-scaled structural decoding)。

核心论文解读

1. CoRP:用权重空间算子替代推理时集成

2. TOPD / POPD:把"完整轨迹"变成"可截断轨迹"

两条路径的互补性:CoRP 处理"多模型怎么合",TOPD 处理"单条轨迹要多少"。两者都绕开了 PPO/GRPO 的策略梯度回路,是 post-training 栈工程化的两个独立杠杆。

相关工作

LinTree:让搜索历史显式成"树"

Graph-LLaDA:MDLM 的失败模式与无训练修复

STR / TripletQL:表格理解的结构化重写

其他值得留意的边角信号

论文看点链接
PARL(Personalized Evaluation as Learning)把个性化评估公式化为学习问题,rubric 感应 + 自验证机制arXiv:2605.31545
UniAudio-Token(Tencent)让单 codebook 语义 tokenizer 保留通用音频感知;code + checkpoint 公开arXiv:2605.31521
AutoSci(北大 Bin Cui 团队)memory-centric 科研全生命周期 agentic systemarXiv:2605.31468
Question-Answering as Hidden State Probing把"提问"作为推理时干预;发现检测 vs 恢复之间的鸿沟arXiv:2605.31561

我的判断

几个反共识观点:
  1. PPO/GRPO 不会消失,但会"内嵌化"。CoRP、TOPD/POPD 都不是 RL 替代品——它们是 RL 上游/下游的结构优化。未来 12 个月,看到的会是"RL + 权重空间融合 + 轨迹调度"三件套并用,单一范式的话语权会被稀释。
  2. 训练自由的推理时修复(λ-scaled structural decoding、LinTree、CoRP 的验证门)正在成为新的"低成本红利区"。这些方法不更新参数,部署成本几乎为零,对中小团队极其友好——值得在内部模型上做对照实验。
  3. "权重空间"和"推理时"之间的边界在模糊。CoRP 把多次推理的集成压回一次推理;LinTree 把隐式 trace 显式化以提升一次推理的效率;TOPD 把多次训练步压缩成更少步。三件事本质都是"用更便宜的算力换同样的质量"——经济模型在变,而不是模型架构在变。
  4. 结构化数据(表格、图、树)的红利期刚开始。STR/TripletQL 和 Graph-LLaDA 同时出现在本期不是巧合:当模型本体变贵,把输入压成结构化表示就变得比"再训一个更大的模型"更划算。值得关注的子方向:结构化 reranking、查询感知的渲染路由。
落地建议(按 ROI 排序):
  1. 优先试 CoRP 类权重空间融合:无需梯度,部署成本不变,对已有 RLHF 基座的边际提升最稳;
  2. 数学/代码 OPD 流程上加 TOPD 截断——几乎是"白送" 3× 效率;
  3. 表格/图问答场景下用 STR 协议重写输入,token 成本下降直接换上下文窗口;
  4. 推理链长的 agent 任务上观察 LinTree 显式父指针是否能稳压隐式 trace——尤其是 multi-branch planning 类任务。