OpenSeeker-v2:纯 SFT 打败工业级 RL 管线的搜索 Agent

2026-05-06 · 搜索AgentSFT开源

为什么重要

深度搜索 Agent 一直是「大厂专属」的代名词——典型工业配方需要预训练→CPT→SFT→RL 四阶段管线,烧钱烧算力。OpenSeeker-v2 用纯学术团队+纯 SFT+仅 10.6K 数据点,在 4 个基准上全面超越通义 DeepResearch(CPT+SFT+RL 全管线),并开源模型权重。这在「搜索 Agent 就是拼 RL」的惯性认知上撕开了一个口子:数据质量比训练范式的复杂度更重要

核心论文解读

OpenSeeker-v2: Pushing the Limits of Search Agents with Informative and High-Difficulty Trajectories

作者:Rui Ye 等(纯学术团队)
论文:arXiv:2605.04036 · 7 页 · 2026-05-05
模型:开源,30B 参数,ReAct 范式

关键技术点

  1. 三项数据合成改进:
  2. 极简训练:仅 SFT,10.6K 高质量轨迹,无 CPT、无 RL
  3. SOTA 结果(30B 量级 ReAct Agent):
基准OpenSeeker-v2通义 DeepResearch提升
BrowseComp46.0%43.4%+2.6pp
BrowseComp-ZH58.1%46.7%+11.4pp
Humanity's Last Exam34.6%32.9%+1.7pp
xbench78.0%75.0%+3.0pp

局限性

相关工作

推理轨迹的质量监督:TraceLift

arXiv:2605.03862 — Junhao Su 等(36 页)

与 OpenSeeker-v2 关注「搜索能力」不同,TraceLift 关注推理轨迹本身的忠实性。核心洞察:RL 训练中仅用最终答案正确性作为奖励信号,会奖励「对了但推理错了」的轨迹(right for wrong reasons)。TraceLift 引入 planner-executor 框架:planner 输出带标签的推理步骤,frozen executor 消费这些步骤并生成最终产物,奖励由「推理质量评分 × executor 提升幅度」乘法决定。配套发布 TRACELIFT-GROUPS 数据集,包含同问题的正确轨迹和多种典型错误轨迹。

连接点:OpenSeeker-v2 的 SFT 数据通过「低步数过滤」隐式提升了轨迹质量;TraceLift 则显式建模轨迹质量作为训练信号。两者都指向同一个方向——轨迹质量比训练规模重要

Agent 工作空间能力评估:Workspace-Bench

arXiv:2605.03596 — Zirui Tang 等(30 页,蚂蚁集团+清华)

构建了 5 种工作者画像、74 种文件类型、20,476 个文件(最高 20GB)、388 个任务的大规模 workspace 学习基准。每个任务都有独立的文件依赖图,需跨文件检索、上下文推理和自适应决策。当前最佳 Agent 仅达 68.7%(人类 80.7%),平均仅 47.4%——说明真实 workspace 场景下的 Agent 能力差距依然显著。提供 Workspace-Bench-Lite(100 任务子集)降低评估成本约 70%。

注意:Workspace-Bench 的「文件依赖推理」场景与 OpenSeeker-v2 的「网页搜索推理」场景有本质不同。前者要求理解本地文件间的隐式依赖关系,后者依赖外部信息检索。两者代表了 Agent 能力的两个正交维度。

其他值得关注的论文

论文核心贡献标签
Self-Improving Plan Generation 自改进+生成模型做规划,ICAPS 2026。4 个领域平均减少 30% 规划步数,80%+ 达到最优,推理延迟亚指数增长 规划ICAPS 2026
Convergent-Divergent Routing 在 Transformer 内部定位并编辑功利主义/道义论推理分叉点,实现推理时的精细道德框架控制 可解释性道德推理
QKVShare 量化 KV-cache 在多 Agent 间传递,端侧 LLM 系统。8K 上下文下 TTFT 从 1029.7ms 降至 397.1ms 端侧多Agent
SaFE-Scale 临床 LLM 安全性与准确率遵循不同的 scaling law。34 个模型×6 部署条件,清洁证据将高风险错误从 12.0% 降至 2.6% 安全医疗AI
AI Red Teaming Agent 基于 Dreadnode SDK 的 agentic 红队测试框架,将数周的手工攻击流程压缩到数小时,Llama Scout 攻击成功率 85% 安全Agent

我的判断

1. 「数据质量 > 训练复杂度」的证据在积累。OpenSeeker-v2 的 10.6K SFT 战胜通义的 CPT+SFT+RL 全管线,TraceLift 的「正确≠有用」推理奖励,都指向同一个信号:2026 年我们可能过度投资了训练范式的复杂度,而低估了数据工程的价值。这跟 DeepSeek-V4 开源后社区发现「小模型+好数据」可以逼近大模型的方向一致。

2. 搜索 Agent 的「去中心化」正在发生。OpenSeeker-v2 是第一个在 30B 量级达到 SOTA 且由纯学术团队打造的搜索 Agent。开源的模型权重 + 10.6K 的数据量意味着复现门槛很低。这可能会像 DeepSeek 对 LLM 格局的影响一样,让搜索 Agent 从「大厂游戏」变成「社区游戏」。

3. 但我们缺少 Agent 能力的统一评估框架。BrowseComp、HLE、xbench 各有侧重,Workspace-Bench 又测了完全不同的维度。不同基准之间不可比,不同 Agent 框架(ReAct vs CodeAct)也不可比。社区需要一个像 MLPerf 那样的标准化 Agent 评估体系。

保持谨慎:OpenSeeker-v2 仅 7 页,细节有限。10.6K 数据的「质量」定义是否可迁移到其他领域?30B 模型的结论在大规模模型上是否成立?开源权重是否能被独立复现验证?这些都待观察。不要因为一个结果就宣布「RL 已死」。

4. TraceLift 的「推理作为可消费中间产物」框架值得关注。把推理 trace 视作一个可被下游模型消费的 artifact 而非最终输出——这个视角可能影响整个 agentic 系统的设计。如果推理 trace 的质量可以用「是否帮到下游模型」来衡量,那意味着 Agent 系统的各组件之间应该有更紧的反馈回路。