让推理模型学会类比:检索增强强化微调 RA-RFT

每日调研 · 2026-06-12 · 主题:LLM 推理后训练新范式

为什么重要。今天的 ArXiv 上,LLM 推理的进步不再只靠更大模型或更长 CoT,而是开始出现一种新思路:用检索给模型"喂类比题",用强化微调让它"学会怎么用类比"。Zilin Xiao 等人的 RA-RFT 在 AIME 2025 上把 Qwen3-4B 的 average@32 准确率比 GRPO 整整拉高 2.8 分,在 1.7B 上拉高 7.1 分——这是过去两个月推理 SFT 路线上少见的方法论突破。它指向一个判断:推理的瓶颈正在从"会不会想"变成"会不会借"。

核心洞察:RAG 的"检索"目标函数和推理的"类比"目标函数不是同一件事。语义相似≠推理相似。RA-RFT 的关键动作,是训练一个"按推理收益排序"的 retriever,而不是按相似度排序的 retriever。

核心论文解读

1. RA-RFT:Learning to Reason by Analogy via Retrieval-Augmented Reinforcement Fine-Tuning

arXiv:2606.13680cs.CL / cs.AIQwen3-1.7B / 4B

作者:Zilin Xiao 等(单人独立一作,2026-06-11 提交)。

问题动机:传统 RAG 检索器是按"语义/词法相似度"打分,丢给 LLM 的 top-k 上下文虽然"长得像",但解法套路可能完全不对路;反之,一个表面不同、但解法套路一致的问题,反而是最有价值的类比。语义相似的邻居,在推理任务里其实是噪声。

方法(两阶段):

Gold-relevance Distillation:用带 ground-truth 解题过程的小样本,蒸馏训练一个 retriever,使其排序目标从"语义相似度"换成"推理收益(expected reasoning benefit)"。本质上是把"对解题有没有用"作为相关性标签。
Reinforcement Fine-Tuning with Retrieved Analogues:在带可验证奖励(verifiable outcome reward,基本就是答案对错)的 RL 阶段,把检索到的类比题 + 解题 trace 作为 policy 的额外输入,让模型在"做新题"时同时被类比题"手把手带一遍"解法套路。RL 用的还是 GRPO 类方法,但信号被检索器筛选过了。

实验结果(AIME 2025, average@32):

模型	基线 GRPO	RA-RFT	提升
Qwen3-1.7B	~37.1	~44.2	+7.1
Qwen3-4B	~55.6	~58.4	+2.8

论文还做了一个有意思的消融:换 retrieval 来的类比题的"多样性"指标,发现检索器返回的"看似不同但解法结构一致"的样本,提供了相互正交的推理脚手架——也就是说,光给模型一道"几乎一样"的题用处不大,真正有效的是多道"结构同构但叙述异构"的题。

局限:

Gold-relevance distillation 阶段需要"题目 + 完整正确解法"配对,本质上是带监督的,不是完全无监督的。这把数据成本推回了 SFT 级别。
实验集中在数学推理(AIME),代码 / 形式证明 / 开放式推理是否同样有效,论文未给数据。
Retriever 和 policy 联合训练时是否会出现"retriever 偷懒、只挑 policy 已经擅长的题"的奖励黑客,没看到 ablation。

注意:RA-RFT 的 +7.1 是 1.7B 小模型上的提升。在 4B 上就只剩 2.8 分——小模型靠类比吃红利更明显,大模型本身的内部类比能力越强,检索注入的边际收益越低。这暗示 RA-RFT 的最佳战场是 1.5B-3B 级别的"小而专"推理模型,而不是旗舰模型。

我的判断

1. 推理的下一站,是"检索 + RL"。2024-2025 推理进步的关键词是"长 CoT"和"RL with verifiable rewards"。2026 上半年的苗头是"再往前一步,连题都不必自己想,先去借"——RA-RFT 是这条路目前最干净的实证,7.1 分的小模型提升不是 bug,是结构性收益。

2. 但 RA-RFT 还不是"AGI 时刻"。它的核心假设是"存在一个高质量的 gold solution pool",这等于把数据问题包装成了方法问题。真正的 next step 是:能不能不要 gold solution,让 retriever 在没有 ground-truth 的情况下,自己发现"哪道题的解法套路对新题有用"——也就是 retriever 自身的 self-play / RL。

3. 对 JC 当前 picturebook-kg 项目的可借鉴点:绘本知识图谱里,跨绘本的"情节结构同构"问题很常见(比如不同绘本的"离家-冒险-归来"结构),用 RA-RFT 的思路训练一个"按叙事结构相似度而非关键词相似度"检索的 retriever,可能比纯 BM25 / dense retrieval 更有效。这是一个值得做的实验方向。

风险提示:RA-RFT 的实验只到 4B。在更大模型(70B+)上,retriever 注入的"小抄"可能反而被模型自身的内部知识覆盖,效果不一定线性扩展。建议任何后续工程化应用,都先在自己目标模型尺寸上做小规模复现,别直接相信 1.7B / 4B 上的数字。

参考链接

RA-RFT:arxiv.org/abs/2606.13680
EvoArena + EvoMem:arxiv.org/abs/2606.13681
ProReviewer:arxiv.org/abs/2606.13349

让推理模型学会类比:检索增强强化微调 RA-RFT

核心论文解读

1. RA-RFT:Learning to Reason by Analogy via Retrieval-Augmented Reinforcement Fine-Tuning

相关工作

2. EvoArena + EvoMem:动态环境下 LLM Agent 的记忆进化

3. ProReviewer:从被动生成到主动调查的科学评审 Agent

我的判断

参考链接