为什么重要:Deep Research 已成为前沿 LLM 的核心用例,但现有 benchmark 已被前沿模型刷爆,难以区分真实能力差异。本次解读的两篇论文从不同维度建立了更高难度的评估体系,揭示了当前系统在推导(Derivation)和校准(Calibration)上的根本瓶颈。
论文:A Deep Research Benchmark Demanding Massive Cross-Source Evidence and Long-Horizon Derivation
作者:Sixiong Xie, Zhuofan Shi, Haiyang Shen 等(12人团队)
数据来源:cs.AI · 2026-05-20 · Work in Progress
核心贡献
DeepWeb-Bench 解决了现有 benchmark 对前沿模型过于简单的问题。三个难度维度:
四大能力维度
| 能力族 | 考察内容 |
|---|---|
| Retrieval | 信息检索能力 |
| Derivation | 多步推导能力 |
| Reasoning | 逻辑推理能力 |
| Calibration | 答案置信度校准 |
关键发现(9个前沿模型)
① 检索不是瓶颈:检索失败只占错误的 12-14%,而推导失败和校准失败合计超过 70%。这颠覆了「多引用就是好研究」的直觉。
② 强模型 vs 弱模型失败模式质变:强模型的错误以「推导不完整」为主;弱模型的错误以「幻觉精度」为主。这意味着能力提升后瓶颈从「记错了」转移到「想不全」。
③ 模型存在真实的专业化分工:跨模型相关性 ρ = 0.61(中等相关),逐案分歧率达 18.8 个百分点。没有任何模型在所有领域都最强。
局限性
作者:Haiyang Shen, Jiuzheng Wang, Taian Guo 等(14人团队)
数据来源:cs.AI · 2026-05-20
核心创新
QuestBench 不是普通 benchmark——它是一种课程实践,让学生通过构造评估任务来理解 AI 能力边界。256 道题覆盖 14 个人文社科领域,要求题目可验证、答案有来源。
关键发现
13 个系统的平均通过率仅 16.85%,最好的 GPT-5.5 也只有 57.58%。这说明即使是最强模型,在严格可验证的专家级问题上仍有超过四成的失败率。
局限性
| 维度 | DeepWeb-Bench | QuestBench |
|---|---|---|
| 题目来源 | 研究团队设计 | 学生构造 |
| 领域覆盖 | 通用开放 Web | 人文社科 |
| 难度定位 | 对标前沿模型 | 严格可验证 |
| 评估对象 | 9个模型(含推理链) | 13个系统 |
| 最佳结果 | 未披露具体数字 | GPT-5.5: 57.58% |
| 代码开源 | 是(data + rubrics + eval) | 是 |
共同指向的核心问题:当前 Deep Research 系统的瓶颈不在「找不到信息」,而在「推导整合」和「置信度校准」。这意味着单纯提升 RAG 或搜索能力对下一代系统的提升有限。
这两篇论文的组合非常有价值——DeepWeb-Bench 提供了系统化的能力拆解框架,QuestBench 用教学相长的方式揭示了「严格评估」的必要性。
对从业者的实际意义:
研究角度:
风险提示:
BenchmarkDeep ResearchLLM EvaluationArXiv 2026