让推理模型学会类比:检索增强强化微调 RA-RFT

每日调研 · 2026-06-12 · 主题:LLM 推理后训练新范式

为什么重要。今天的 ArXiv 上,LLM 推理的进步不再只靠更大模型或更长 CoT,而是开始出现一种新思路:用检索给模型"喂类比题",用强化微调让它"学会怎么用类比"。Zilin Xiao 等人的 RA-RFT 在 AIME 2025 上把 Qwen3-4B 的 average@32 准确率比 GRPO 整整拉高 2.8 分,在 1.7B 上拉高 7.1 分——这是过去两个月推理 SFT 路线上少见的方法论突破。它指向一个判断:推理的瓶颈正在从"会不会想"变成"会不会借"

核心洞察:RAG 的"检索"目标函数和推理的"类比"目标函数不是同一件事。语义相似≠推理相似。RA-RFT 的关键动作,是训练一个"按推理收益排序"的 retriever,而不是按相似度排序的 retriever。

核心论文解读

1. RA-RFT:Learning to Reason by Analogy via Retrieval-Augmented Reinforcement Fine-Tuning

arXiv:2606.13680cs.CL / cs.AIQwen3-1.7B / 4B

作者:Zilin Xiao 等(单人独立一作,2026-06-11 提交)。

问题动机:传统 RAG 检索器是按"语义/词法相似度"打分,丢给 LLM 的 top-k 上下文虽然"长得像",但解法套路可能完全不对路;反之,一个表面不同、但解法套路一致的问题,反而是最有价值的类比。语义相似的邻居,在推理任务里其实是噪声。

方法(两阶段):

  1. Gold-relevance Distillation:用带 ground-truth 解题过程的小样本,蒸馏训练一个 retriever,使其排序目标从"语义相似度"换成"推理收益(expected reasoning benefit)"。本质上是把"对解题有没有用"作为相关性标签。
  2. Reinforcement Fine-Tuning with Retrieved Analogues:在带可验证奖励(verifiable outcome reward,基本就是答案对错)的 RL 阶段,把检索到的类比题 + 解题 trace 作为 policy 的额外输入,让模型在"做新题"时同时被类比题"手把手带一遍"解法套路。RL 用的还是 GRPO 类方法,但信号被检索器筛选过了。

实验结果(AIME 2025, average@32):

模型基线 GRPORA-RFT提升
Qwen3-1.7B~37.1~44.2+7.1
Qwen3-4B~55.6~58.4+2.8

论文还做了一个有意思的消融:换 retrieval 来的类比题的"多样性"指标,发现检索器返回的"看似不同但解法结构一致"的样本,提供了相互正交的推理脚手架——也就是说,光给模型一道"几乎一样"的题用处不大,真正有效的是多道"结构同构但叙述异构"的题。

局限:

注意:RA-RFT 的 +7.1 是 1.7B 小模型上的提升。在 4B 上就只剩 2.8 分——小模型靠类比吃红利更明显,大模型本身的内部类比能力越强,检索注入的边际收益越低。这暗示 RA-RFT 的最佳战场是 1.5B-3B 级别的"小而专"推理模型,而不是旗舰模型。

相关工作

2. EvoArena + EvoMem:动态环境下 LLM Agent 的记忆进化

arXiv:2606.13681cs.CLBenchmark + 方法

作者:Jundong Xu, Qingchuan Li 等(Salesforce / NUS / NTU 合作)。

关键点:现在主流的 agent 评估(GAIA、SWE-bench、LoCoMo)都假设环境是静态的——但真实世界环境一直在变。EvoArena 引入了一种"渐进式环境漂移"benchmark,把环境建模为 terminal / software / social 三个域的连续更新序列。EvoMem 则提出"patch-based 记忆范式",把记忆当成"打了 patch 的代码":不是每次重写整个 memory,而是只记"哪条旧记忆被 patch 掉了、哪条新记忆被加上了"的 delta。

结果:当前 SOTA agent 在 EvoArena 上平均只有 39.6% 准确率;EvoMem 在 EvoArena 上提升 1.5%,在 GAIA / LoCoMo 上分别提升 6.1% / 4.8%——说明它在静态环境上也有用,但动态环境是它真正的主战场。

判断:和 RA-RFT 互补——RA-RFT 关心"单次推理能不能借别人的解法",EvoMem 关心"长期记忆中怎么追踪环境变化"。两者结合,就是"每次解题借类比 + 长期记住环境在哪变了"。

3. ProReviewer:从被动生成到主动调查的科学评审 Agent

arXiv:2606.13349cs.CLMDP 框架

作者:Haishuo Fang 等。

关键点:现有 LLM 评审 agent 都是"读完整篇论文→直接生成评审意见"的被动模式,没有"读到这里觉得某段可疑→回去查文献/算一遍"的主动调查能力。ProReviewer 把这建模为 MDP,agent 维护一个"结构化 review log"作为工作区,允许它在评审过程中"再回去调查"。8B backbone + SFT + RL 训练后,在 5 个评审质量维度上比 prompt-based 的大模型高出 39%,比最强 SFT baseline 高 16%。

判断:这工作也印证了一个趋势——RL 后训练不再只服务于"推理题",开始进入"开放式 agent 决策"领域。但和 RA-RFT 不同,ProReviewer 没用检索。

我的判断

1. 推理的下一站,是"检索 + RL"。2024-2025 推理进步的关键词是"长 CoT"和"RL with verifiable rewards"。2026 上半年的苗头是"再往前一步,连题都不必自己想,先去借"——RA-RFT 是这条路目前最干净的实证,7.1 分的小模型提升不是 bug,是结构性收益。

2. 但 RA-RFT 还不是"AGI 时刻"。它的核心假设是"存在一个高质量的 gold solution pool",这等于把数据问题包装成了方法问题。真正的 next step 是:能不能不要 gold solution,让 retriever 在没有 ground-truth 的情况下,自己发现"哪道题的解法套路对新题有用"——也就是 retriever 自身的 self-play / RL

3. 对 JC 当前 picturebook-kg 项目的可借鉴点:绘本知识图谱里,跨绘本的"情节结构同构"问题很常见(比如不同绘本的"离家-冒险-归来"结构),用 RA-RFT 的思路训练一个"按叙事结构相似度而非关键词相似度"检索的 retriever,可能比纯 BM25 / dense retrieval 更有效。这是一个值得做的实验方向。

风险提示:RA-RFT 的实验只到 4B。在更大模型(70B+)上,retriever 注入的"小抄"可能反而被模型自身的内部知识覆盖,效果不一定线性扩展。建议任何后续工程化应用,都先在自己目标模型尺寸上做小规模复现,别直接相信 1.7B / 4B 上的数字。

参考链接