为什么重要
深度搜索 Agent 一直是「大厂专属」的代名词——典型工业配方需要预训练→CPT→SFT→RL 四阶段管线,烧钱烧算力。OpenSeeker-v2 用纯学术团队+纯 SFT+仅 10.6K 数据点,在 4 个基准上全面超越通义 DeepResearch(CPT+SFT+RL 全管线),并开源模型权重。这在「搜索 Agent 就是拼 RL」的惯性认知上撕开了一个口子:数据质量比训练范式的复杂度更重要。
作者:Rui Ye 等(纯学术团队)
论文:arXiv:2605.04036 · 7 页 · 2026-05-05
模型:开源,30B 参数,ReAct 范式
| 基准 | OpenSeeker-v2 | 通义 DeepResearch | 提升 |
|---|---|---|---|
| BrowseComp | 46.0% | 43.4% | +2.6pp |
| BrowseComp-ZH | 58.1% | 46.7% | +11.4pp |
| Humanity's Last Exam | 34.6% | 32.9% | +1.7pp |
| xbench | 78.0% | 75.0% | +3.0pp |
arXiv:2605.03862 — Junhao Su 等(36 页)
与 OpenSeeker-v2 关注「搜索能力」不同,TraceLift 关注推理轨迹本身的忠实性。核心洞察:RL 训练中仅用最终答案正确性作为奖励信号,会奖励「对了但推理错了」的轨迹(right for wrong reasons)。TraceLift 引入 planner-executor 框架:planner 输出带标签的推理步骤,frozen executor 消费这些步骤并生成最终产物,奖励由「推理质量评分 × executor 提升幅度」乘法决定。配套发布 TRACELIFT-GROUPS 数据集,包含同问题的正确轨迹和多种典型错误轨迹。
连接点:OpenSeeker-v2 的 SFT 数据通过「低步数过滤」隐式提升了轨迹质量;TraceLift 则显式建模轨迹质量作为训练信号。两者都指向同一个方向——轨迹质量比训练规模重要。
arXiv:2605.03596 — Zirui Tang 等(30 页,蚂蚁集团+清华)
构建了 5 种工作者画像、74 种文件类型、20,476 个文件(最高 20GB)、388 个任务的大规模 workspace 学习基准。每个任务都有独立的文件依赖图,需跨文件检索、上下文推理和自适应决策。当前最佳 Agent 仅达 68.7%(人类 80.7%),平均仅 47.4%——说明真实 workspace 场景下的 Agent 能力差距依然显著。提供 Workspace-Bench-Lite(100 任务子集)降低评估成本约 70%。
注意:Workspace-Bench 的「文件依赖推理」场景与 OpenSeeker-v2 的「网页搜索推理」场景有本质不同。前者要求理解本地文件间的隐式依赖关系,后者依赖外部信息检索。两者代表了 Agent 能力的两个正交维度。
| 论文 | 核心贡献 | 标签 |
|---|---|---|
| Self-Improving Plan Generation | 自改进+生成模型做规划,ICAPS 2026。4 个领域平均减少 30% 规划步数,80%+ 达到最优,推理延迟亚指数增长 | 规划ICAPS 2026 |
| Convergent-Divergent Routing | 在 Transformer 内部定位并编辑功利主义/道义论推理分叉点,实现推理时的精细道德框架控制 | 可解释性道德推理 |
| QKVShare | 量化 KV-cache 在多 Agent 间传递,端侧 LLM 系统。8K 上下文下 TTFT 从 1029.7ms 降至 397.1ms | 端侧多Agent |
| SaFE-Scale | 临床 LLM 安全性与准确率遵循不同的 scaling law。34 个模型×6 部署条件,清洁证据将高风险错误从 12.0% 降至 2.6% | 安全医疗AI |
| AI Red Teaming Agent | 基于 Dreadnode SDK 的 agentic 红队测试框架,将数周的手工攻击流程压缩到数小时,Llama Scout 攻击成功率 85% | 安全Agent |
1. 「数据质量 > 训练复杂度」的证据在积累。OpenSeeker-v2 的 10.6K SFT 战胜通义的 CPT+SFT+RL 全管线,TraceLift 的「正确≠有用」推理奖励,都指向同一个信号:2026 年我们可能过度投资了训练范式的复杂度,而低估了数据工程的价值。这跟 DeepSeek-V4 开源后社区发现「小模型+好数据」可以逼近大模型的方向一致。
2. 搜索 Agent 的「去中心化」正在发生。OpenSeeker-v2 是第一个在 30B 量级达到 SOTA 且由纯学术团队打造的搜索 Agent。开源的模型权重 + 10.6K 的数据量意味着复现门槛很低。这可能会像 DeepSeek 对 LLM 格局的影响一样,让搜索 Agent 从「大厂游戏」变成「社区游戏」。
3. 但我们缺少 Agent 能力的统一评估框架。BrowseComp、HLE、xbench 各有侧重,Workspace-Bench 又测了完全不同的维度。不同基准之间不可比,不同 Agent 框架(ReAct vs CodeAct)也不可比。社区需要一个像 MLPerf 那样的标准化 Agent 评估体系。
保持谨慎:OpenSeeker-v2 仅 7 页,细节有限。10.6K 数据的「质量」定义是否可迁移到其他领域?30B 模型的结论在大规模模型上是否成立?开源权重是否能被独立复现验证?这些都待观察。不要因为一个结果就宣布「RL 已死」。
4. TraceLift 的「推理作为可消费中间产物」框架值得关注。把推理 trace 视作一个可被下游模型消费的 artifact 而非最终输出——这个视角可能影响整个 agentic 系统的设计。如果推理 trace 的质量可以用「是否帮到下游模型」来衡量,那意味着 Agent 系统的各组件之间应该有更紧的反馈回路。