为什么重要:LLM 推理能力的提升长期依赖大量训练样本和昂贵 rollout,成本极高。两篇 5 月 27 日同日提交的论文分别从不同路径挑战这一瓶颈——CORE 证明对比反思可在 5 个样本内实现显著改进,SGSD 则用技能条件门控蒸馏在弱先验假设下超越 GRPO。
论文:Skill-Conditioned Gated Self-Distillation for LLM Reasoning
作者:Jiazhen Huang 等 · arXiv:2605.28791
方向:cs.CL / cs.AI · ACL 2026 投稿
代码:github.com/walawalagoose/SGSD(即将公开)
核心问题:现有自蒸馏方法依赖「可信的特权信息」(正确答案或成功轨迹),但现实场景中这些信息可能来自经验积累的技能库——既不完整,也可能误导。
方法:SGSD 将技能条件蒸馏建模为教师假设验证,而非无条件模仿:
实验结果(Qwen3-1.7B):
| 方法 | AIME24 | AIME25 | HMMT25 | 平均 |
|---|---|---|---|---|
| GRPO | — | — | — | baseline |
| OPSD | — | — | — | competitive |
| SGSD | — | — | — | GRPO +6.2%, OPSD +1.7% |
在比 OPSD(答案条件)更弱的先验假设下,SGSD 仍优于 GRPO,说明技能条件门控能有效利用不完美的特权信息。
论文:Contrastive Reflection Enables Rapid Improvements in Reasoning
作者:Linas Nasvytis 等 · arXiv:2605.28742
方向:cs.AI
代码:未公开
核心问题:RLVR、prompt 优化等现有方法通常需要数百训练样本和数千次 rollout,在资源受限场景下不可行。
方法:Contrastive Reflection( CORE)
关键数据:5 个训练样本、少量 rollouts,即可在 4 个推理任务上超越 GRPO、GEPA、episodic RAG、MemRL。
CORE 的本质是将「成功与失败的差异」压缩成可迁移的自然语言洞察,比直接复用完整推理痕迹或更新权重都更高效。
| 维度 | SGSD | CORE |
|---|---|---|
| 训练样本需求 | 标准量级 | 极少(5 个) |
| 代码可用性 | 有(即将公开) | 无 |
| 先验假设 | 弱(技能条件,非答案条件) | 极弱(任意成功/失败对比) |
| 知识形式 | 蒸馏权重更新 | 可解释自然语言洞察 |
| 对小模型友好度 | Qwen3-1.7B 验证 | 未明确 |
| 学术引用 | ACL 2026 投稿 | 待定 |
方向判断:低样本推理自改进是 2026 年最值得关注的方向之一。CORE 和 SGSD 代表两条正交路径——前者用对比洞察绕开权重更新,后者用门控蒸馏榨取不完美技能的价值。两者结合可能是下一代方法。
注意:同天提交的 GSM-Symbolic 批评论文(arXiv:2605.28700)提醒我们,当前主流数学推理评测存在系统性统计问题,两篇论文的评测结论需结合此背景解读。