OpenSeeker-v2：纯 SFT 打败工业级 RL 管线的搜索 Agent

2026-05-06 · 搜索AgentSFT开源

为什么重要

深度搜索 Agent 一直是「大厂专属」的代名词——典型工业配方需要预训练→CPT→SFT→RL 四阶段管线，烧钱烧算力。OpenSeeker-v2 用纯学术团队+纯 SFT+仅 10.6K 数据点，在 4 个基准上全面超越通义 DeepResearch（CPT+SFT+RL 全管线），并开源模型权重。这在「搜索 Agent 就是拼 RL」的惯性认知上撕开了一个口子：数据质量比训练范式的复杂度更重要。

核心论文解读

OpenSeeker-v2: Pushing the Limits of Search Agents with Informative and High-Difficulty Trajectories

作者：Rui Ye 等（纯学术团队）
论文：arXiv:2605.04036 · 7 页 · 2026-05-05
模型：开源，30B 参数，ReAct 范式

关键技术点

三项数据合成改进：
- 扩大知识图谱规模 → 更丰富的探索路径
- 扩展工具集规模 → 更广泛的功能覆盖
- 严格低步数过滤 → 去除冗余轨迹，提升轨迹难度
极简训练：仅 SFT，10.6K 高质量轨迹，无 CPT、无 RL
SOTA 结果（30B 量级 ReAct Agent）：

基准	OpenSeeker-v2	通义 DeepResearch	提升
BrowseComp	46.0%	43.4%	+2.6pp
BrowseComp-ZH	58.1%	46.7%	+11.4pp
Humanity's Last Exam	34.6%	32.9%	+1.7pp
xbench	78.0%	75.0%	+3.0pp

局限性

30B 参数，尚未验证在更大规模模型上的泛化性
仅 ReAct 范式，未探索其他 agentic 框架（如 CodeAct、Tool-use）
数据合成依赖知识图谱质量，领域迁移可能需要重新设计 KG
7 页短报告，缺乏详细的消融实验和分析
BrowseComp-ZH 上相对通义的优势最大（+11.4pp），是否与中文数据配比有关未说明

相关工作

推理轨迹的质量监督：TraceLift

arXiv:2605.03862 — Junhao Su 等（36 页）

与 OpenSeeker-v2 关注「搜索能力」不同，TraceLift 关注推理轨迹本身的忠实性。核心洞察：RL 训练中仅用最终答案正确性作为奖励信号，会奖励「对了但推理错了」的轨迹（right for wrong reasons）。TraceLift 引入 planner-executor 框架：planner 输出带标签的推理步骤，frozen executor 消费这些步骤并生成最终产物，奖励由「推理质量评分 × executor 提升幅度」乘法决定。配套发布 TRACELIFT-GROUPS 数据集，包含同问题的正确轨迹和多种典型错误轨迹。

连接点：OpenSeeker-v2 的 SFT 数据通过「低步数过滤」隐式提升了轨迹质量；TraceLift 则显式建模轨迹质量作为训练信号。两者都指向同一个方向——轨迹质量比训练规模重要。

Agent 工作空间能力评估：Workspace-Bench

arXiv:2605.03596 — Zirui Tang 等（30 页，蚂蚁集团+清华）

构建了 5 种工作者画像、74 种文件类型、20,476 个文件（最高 20GB）、388 个任务的大规模 workspace 学习基准。每个任务都有独立的文件依赖图，需跨文件检索、上下文推理和自适应决策。当前最佳 Agent 仅达 68.7%（人类 80.7%），平均仅 47.4%——说明真实 workspace 场景下的 Agent 能力差距依然显著。提供 Workspace-Bench-Lite（100 任务子集）降低评估成本约 70%。

注意：Workspace-Bench 的「文件依赖推理」场景与 OpenSeeker-v2 的「网页搜索推理」场景有本质不同。前者要求理解本地文件间的隐式依赖关系，后者依赖外部信息检索。两者代表了 Agent 能力的两个正交维度。

其他值得关注的论文

论文	核心贡献	标签
Self-Improving Plan Generation	自改进+生成模型做规划，ICAPS 2026。4 个领域平均减少 30% 规划步数，80%+ 达到最优，推理延迟亚指数增长	规划ICAPS 2026
Convergent-Divergent Routing	在 Transformer 内部定位并编辑功利主义/道义论推理分叉点，实现推理时的精细道德框架控制	可解释性道德推理
QKVShare	量化 KV-cache 在多 Agent 间传递，端侧 LLM 系统。8K 上下文下 TTFT 从 1029.7ms 降至 397.1ms	端侧多Agent
SaFE-Scale	临床 LLM 安全性与准确率遵循不同的 scaling law。34 个模型×6 部署条件，清洁证据将高风险错误从 12.0% 降至 2.6%	安全医疗AI
AI Red Teaming Agent	基于 Dreadnode SDK 的 agentic 红队测试框架，将数周的手工攻击流程压缩到数小时，Llama Scout 攻击成功率 85%	安全Agent

我的判断

1. 「数据质量 > 训练复杂度」的证据在积累。OpenSeeker-v2 的 10.6K SFT 战胜通义的 CPT+SFT+RL 全管线，TraceLift 的「正确≠有用」推理奖励，都指向同一个信号：2026 年我们可能过度投资了训练范式的复杂度，而低估了数据工程的价值。这跟 DeepSeek-V4 开源后社区发现「小模型+好数据」可以逼近大模型的方向一致。

2. 搜索 Agent 的「去中心化」正在发生。OpenSeeker-v2 是第一个在 30B 量级达到 SOTA 且由纯学术团队打造的搜索 Agent。开源的模型权重 + 10.6K 的数据量意味着复现门槛很低。这可能会像 DeepSeek 对 LLM 格局的影响一样，让搜索 Agent 从「大厂游戏」变成「社区游戏」。

3. 但我们缺少 Agent 能力的统一评估框架。BrowseComp、HLE、xbench 各有侧重，Workspace-Bench 又测了完全不同的维度。不同基准之间不可比，不同 Agent 框架（ReAct vs CodeAct）也不可比。社区需要一个像 MLPerf 那样的标准化 Agent 评估体系。

保持谨慎：OpenSeeker-v2 仅 7 页，细节有限。10.6K 数据的「质量」定义是否可迁移到其他领域？30B 模型的结论在大规模模型上是否成立？开源权重是否能被独立复现验证？这些都待观察。不要因为一个结果就宣布「RL 已死」。

4. TraceLift 的「推理作为可消费中间产物」框架值得关注。把推理 trace 视作一个可被下游模型消费的 artifact 而非最终输出——这个视角可能影响整个 agentic 系统的设计。如果推理 trace 的质量可以用「是否帮到下游模型」来衡量，那意味着 Agent 系统的各组件之间应该有更紧的反馈回路。