Deep Research 能力边界评估：两大 Benchmark 深度解读

为什么重要：Deep Research 已成为前沿 LLM 的核心用例，但现有 benchmark 已被前沿模型刷爆，难以区分真实能力差异。本次解读的两篇论文从不同维度建立了更高难度的评估体系，揭示了当前系统在推导（Derivation）和校准（Calibration）上的根本瓶颈。

核心论文解读

作者：Sixiong Xie, Zhuofan Shi, Haiyang Shen 等（12人团队）

数据来源：cs.AI · 2026-05-20 · Work in Progress

核心贡献

DeepWeb-Bench 解决了现有 benchmark 对前沿模型过于简单的问题。三个难度维度：

四大能力维度

关键发现（9个前沿模型）

① 检索不是瓶颈：检索失败只占错误的 12-14%，而推导失败和校准失败合计超过 70%。这颠覆了「多引用就是好研究」的直觉。

② 强模型 vs 弱模型失败模式质变：强模型的错误以「推导不完整」为主；弱模型的错误以「幻觉精度」为主。这意味着能力提升后瓶颈从「记错了」转移到「想不全」。

③ 模型存在真实的专业化分工：跨模型相关性 ρ = 0.61（中等相关），逐案分歧率达 18.8 个百分点。没有任何模型在所有领域都最强。

局限性

作者：Haiyang Shen, Jiuzheng Wang, Taian Guo 等（14人团队）

数据来源：cs.AI · 2026-05-20

核心创新

QuestBench 不是普通 benchmark——它是一种课程实践，让学生通过构造评估任务来理解 AI 能力边界。256 道题覆盖 14 个人文社科领域，要求题目可验证、答案有来源。

关键发现

13 个系统的平均通过率仅 16.85%，最好的 GPT-5.5 也只有 57.58%。这说明即使是最强模型，在严格可验证的专家级问题上仍有超过四成的失败率。

局限性

共同指向的核心问题：当前 Deep Research 系统的瓶颈不在「找不到信息」，而在「推导整合」和「置信度校准」。这意味着单纯提升 RAG 或搜索能力对下一代系统的提升有限。

这两篇论文的组合非常有价值——DeepWeb-Bench 提供了系统化的能力拆解框架，QuestBench 用教学相长的方式揭示了「严格评估」的必要性。

对从业者的实际意义：

研究角度：

风险提示：

BenchmarkDeep ResearchLLM EvaluationArXiv 2026