LLM 推理的低样本自改进方法:SGSD 与 CORE 对比分析

2026-05-29 · ArXiv cs.AI/cs.CL 新论文深度解读

为什么重要:LLM 推理能力的提升长期依赖大量训练样本和昂贵 rollout,成本极高。两篇 5 月 27 日同日提交的论文分别从不同路径挑战这一瓶颈——CORE 证明对比反思可在 5 个样本内实现显著改进,SGSD 则用技能条件门控蒸馏在弱先验假设下超越 GRPO。

核心论文解读

论文一:SGSD — 技能条件门控自蒸馏

论文:Skill-Conditioned Gated Self-Distillation for LLM Reasoning

作者:Jiazhen Huang 等 · arXiv:2605.28791

方向:cs.CL / cs.AI · ACL 2026 投稿

代码github.com/walawalagoose/SGSD(即将公开)

核心问题:现有自蒸馏方法依赖「可信的特权信息」(正确答案或成功轨迹),但现实场景中这些信息可能来自经验积累的技能库——既不完整,也可能误导。

方法:SGSD 将技能条件蒸馏建模为教师假设验证,而非无条件模仿:

实验结果(Qwen3-1.7B)

方法AIME24AIME25HMMT25平均
GRPObaseline
OPSDcompetitive
SGSDGRPO +6.2%, OPSD +1.7%

在比 OPSD(答案条件)更弱的先验假设下,SGSD 仍优于 GRPO,说明技能条件门控能有效利用不完美的特权信息。

论文二:CORE — 对比反思实现快速改进

论文:Contrastive Reflection Enables Rapid Improvements in Reasoning

作者:Linas Nasvytis 等 · arXiv:2605.28742

方向:cs.AI

代码:未公开

核心问题:RLVR、prompt 优化等现有方法通常需要数百训练样本和数千次 rollout,在资源受限场景下不可行。

方法:Contrastive Reflection( CORE)

关键数据:5 个训练样本、少量 rollouts,即可在 4 个推理任务上超越 GRPO、GEPA、episodic RAG、MemRL。

CORE 的本质是将「成功与失败的差异」压缩成可迁移的自然语言洞察,比直接复用完整推理痕迹或更新权重都更高效。

两篇论文的关键差异

维度SGSDCORE
训练样本需求标准量级极少(5 个)
代码可用性有(即将公开)
先验假设弱(技能条件,非答案条件)极弱(任意成功/失败对比)
知识形式蒸馏权重更新可解释自然语言洞察
对小模型友好度Qwen3-1.7B 验证未明确
学术引用ACL 2026 投稿待定

相关工作

我的判断

方向判断:低样本推理自改进是 2026 年最值得关注的方向之一。CORE 和 SGSD 代表两条正交路径——前者用对比洞察绕开权重更新,后者用门控蒸馏榨取不完美技能的价值。两者结合可能是下一代方法。

注意:同天提交的 GSM-Symbolic 批评论文(arXiv:2605.28700)提醒我们,当前主流数学推理评测存在系统性统计问题,两篇论文的评测结论需结合此背景解读。