Deep Research 能力边界评估:两大 Benchmark 深度解读

为什么重要:Deep Research 已成为前沿 LLM 的核心用例,但现有 benchmark 已被前沿模型刷爆,难以区分真实能力差异。本次解读的两篇论文从不同维度建立了更高难度的评估体系,揭示了当前系统在推导(Derivation)和校准(Calibration)上的根本瓶颈。

核心论文解读

论文一:DeepWeb-Bench — 更难的 Deep Research 评估基准

论文A Deep Research Benchmark Demanding Massive Cross-Source Evidence and Long-Horizon Derivation

作者:Sixiong Xie, Zhuofan Shi, Haiyang Shen 等(12人团队)

数据来源:cs.AI · 2026-05-20 · Work in Progress

核心贡献

DeepWeb-Bench 解决了现有 benchmark 对前沿模型过于简单的问题。三个难度维度:

四大能力维度

能力族考察内容
Retrieval信息检索能力
Derivation多步推导能力
Reasoning逻辑推理能力
Calibration答案置信度校准

关键发现(9个前沿模型)

① 检索不是瓶颈:检索失败只占错误的 12-14%,而推导失败和校准失败合计超过 70%。这颠覆了「多引用就是好研究」的直觉。

② 强模型 vs 弱模型失败模式质变:强模型的错误以「推导不完整」为主;弱模型的错误以「幻觉精度」为主。这意味着能力提升后瓶颈从「记错了」转移到「想不全」。

③ 模型存在真实的专业化分工:跨模型相关性 ρ = 0.61(中等相关),逐案分歧率达 18.8 个百分点。没有任何模型在所有领域都最强。

局限性

论文二:QuestBench — 学生设计的 Deep Research 评估

论文Teaching AI Through Benchmark Construction: QuestBench as a Course-Based Practice for Accountable Knowledge Work

作者:Haiyang Shen, Jiuzheng Wang, Taian Guo 等(14人团队)

数据来源:cs.AI · 2026-05-20

核心创新

QuestBench 不是普通 benchmark——它是一种课程实践,让学生通过构造评估任务来理解 AI 能力边界。256 道题覆盖 14 个人文社科领域,要求题目可验证、答案有来源。

关键发现

13 个系统的平均通过率仅 16.85%,最好的 GPT-5.5 也只有 57.58%。这说明即使是最强模型,在严格可验证的专家级问题上仍有超过四成的失败率。

局限性

两篇论文的关联与差异

维度DeepWeb-BenchQuestBench
题目来源研究团队设计学生构造
领域覆盖通用开放 Web人文社科
难度定位对标前沿模型严格可验证
评估对象9个模型(含推理链)13个系统
最佳结果未披露具体数字GPT-5.5: 57.58%
代码开源是(data + rubrics + eval)

共同指向的核心问题:当前 Deep Research 系统的瓶颈不在「找不到信息」,而在「推导整合」和「置信度校准」。这意味着单纯提升 RAG 或搜索能力对下一代系统的提升有限。

我的判断

这两篇论文的组合非常有价值——DeepWeb-Bench 提供了系统化的能力拆解框架,QuestBench 用教学相长的方式揭示了「严格评估」的必要性。

对从业者的实际意义:

研究角度:

风险提示:

BenchmarkDeep ResearchLLM EvaluationArXiv 2026