LLM 推理的低样本自改进方法：SGSD 与 CORE 对比分析

2026-05-29 · ArXiv cs.AI/cs.CL 新论文深度解读

为什么重要：LLM 推理能力的提升长期依赖大量训练样本和昂贵 rollout，成本极高。两篇 5 月 27 日同日提交的论文分别从不同路径挑战这一瓶颈——CORE 证明对比反思可在 5 个样本内实现显著改进，SGSD 则用技能条件门控蒸馏在弱先验假设下超越 GRPO。

核心论文解读

论文：Skill-Conditioned Gated Self-Distillation for LLM Reasoning

作者：Jiazhen Huang 等 · arXiv:2605.28791

方向：cs.CL / cs.AI · ACL 2026 投稿

核心问题：现有自蒸馏方法依赖「可信的特权信息」（正确答案或成功轨迹），但现实场景中这些信息可能来自经验积累的技能库——既不完整，也可能误导。

方法：SGSD 将技能条件蒸馏建模为教师假设验证，而非无条件模仿：

实验结果（Qwen3-1.7B）：

方法	AIME24	AIME25	HMMT25	平均
GRPO	—	—	—	baseline
OPSD	—	—	—	competitive
SGSD	—	—	—	GRPO +6.2%, OPSD +1.7%

在比 OPSD（答案条件）更弱的先验假设下，SGSD 仍优于 GRPO，说明技能条件门控能有效利用不完美的特权信息。

论文：Contrastive Reflection Enables Rapid Improvements in Reasoning

作者：Linas Nasvytis 等 · arXiv:2605.28742

方向：cs.AI

代码：未公开

核心问题：RLVR、prompt 优化等现有方法通常需要数百训练样本和数千次 rollout，在资源受限场景下不可行。

方法：Contrastive Reflection（ CORE）

关键数据：5 个训练样本、少量 rollouts，即可在 4 个推理任务上超越 GRPO、GEPA、episodic RAG、MemRL。

CORE 的本质是将「成功与失败的差异」压缩成可迁移的自然语言洞察，比直接复用完整推理痕迹或更新权重都更高效。

方向判断：低样本推理自改进是 2026 年最值得关注的方向之一。CORE 和 SGSD 代表两条正交路径——前者用对比洞察绕开权重更新，后者用门控蒸馏榨取不完美技能的价值。两者结合可能是下一代方法。

实用价值：CORE 的极低样本需求对个人开发者和资源受限场景有直接价值；SGSD 的多教师池架构对需要持续迭代的线上部署更友好
可复现性担忧：CORE 代码未公开，且论文只报告了平均提升幅度，缺乏具体数值，存疑；SGSD 至少承诺代码公开
对小模型的影响：SGSD 在 Qwen3-1.7B 上的结果值得关注——以往高效自改进多在大模型上验证，1.7B 参数量意味着端侧部署的推理改进成为可能

注意：同天提交的 GSM-Symbolic 批评论文（arXiv:2605.28700）提醒我们，当前主流数学推理评测存在系统性统计问题，两篇论文的评测结论需结合此背景解读。