Agent 评测基准的新纪元:WildClawBench 与 Shepherd

2026-05-13 · 每日调研

为什么重要:AI Agent 正从"单步工具调用"进化为"长时序自主执行系统",但现有评测基准几乎全部停留在合成环境、短任务、Mock API 阶段。两篇 2026 年 5 月 11 日提交的论文从不同方向打破了这一困局——WildClawBench 构建了真实 CLI 运行时的高难度评测集,Shepherd 为元 Agent 开发提供了可验证、可回溯的基础设施层。两者共同揭示:当前最强模型在真实长时序任务上最好成绩仅 62.2%,整个领域仍有巨大提升空间。

核心论文解读

① WildClawBench — 真实运行时 Agent 评测基准

论文:WildClawBench: A Benchmark for Real-World, Long-Horizon Agent Evaluation

作者:上海人工智能实验室 InternLM 团队(Shuangrui Ding, Dahua Lin, Kai Chen 等 17 位)

arXiv:2605.10912 · 代码:InternLM/WildClawBench

关键数据:

指标数值
任务数量60 个双语多模态任务
平均耗时约 8 分钟/任务
平均工具调用20+ 次/任务
最佳模型成绩(OpenClaw harness)Claude Opus 4.7 · 62.2%
其他模型均低于 60%
Harness 切换带来的分数波动最高 18 个百分点

核心创新:

关键技术点:

核心结论:即使是最强模型,在真实长时序 CLI 任务上也只达到 62.2%;harness 本身对 Agent 表现影响极大。这意味着 Agent 评测不能只看模型能力,必须把「运行环境 + 工具生态 + 评分机制」作为一个整体来评估。

局限性:

② Shepherd — 元 Agent 的形式化执行基础设施

论文:A Runtime Substrate Empowering Meta-Agents with a Formalized Execution Trace

作者:Simon Yu 等

arXiv:2605.10913

Subjects:cs.AI · cs.PL · cs.SE · 56 页

核心思想:将元 Agent(meta-agent)对目标 Agent 的操作形式化为函数,用 Lean 证明器对核心操作进行机械化验证。Shepherd 以 Git 风格的执行 trace 记录所有 Agent-环境交互,使任意历史状态可 fork 和 replay。

关键技术点:

核心结论:Shepherd 为元 Agent 提供了一种高效、可验证、可回溯的运行时基础设施。5 倍于 Docker 的 fork 速度和 >95% 的 prompt 缓存复用,使得「在每个决策点 fork 探索」成为工程上可行的训练策略。

局限性:

③ 附:The First Drop of Ink — 长上下文推理的新陷阱

论文:The First Drop of Ink: Nonlinear Impact of Misleading Information in Long-Context Reasoning

arXiv:2605.10828

一篇揭示 RAG/长上下文系统致命弱点的论文:误导性文档(hard distractors)对模型性能的破坏呈非线性——少量 hard distractors(<10%)就会导致性能急剧下降,此后继续增加 distractor 比例带来的边际损失极小。

对 Agent 评测的启示:WildClawBench 强调「真实环境 + 长时序」,但如果上游检索引入误导性信息,即使在最优模型下性能也会非线性崩塌。这意味着评测不仅要考察 Agent 的决策能力,还必须把「上下文质量控制」纳入评测维度。

相关工作

论文/项目方向与本主题的关系
CooperBench(Shepherd 引用)合作编程评测Shepherd 应用场景之一
TerminalBench-2(Shepherd 引用)终端 Agent 评测Tree-RL 训练效果衡量基准
RubricEM(arXiv:2605.10899)深度研究 Agent 的 RL 训练用 rubric 引导长时序 Agent 优化,与 WildClawBench 互补
DeMem(arXiv:2605.10870)Agent 记忆压缩决策导向的记忆管理,对长时序 Agent 至关重要
BenchCAD(arXiv:2605.10865)工业 CAD 生成评测垂直领域真实评测设计参考

我的判断

这两篇论文共同指向一个核心命题:Agent 的能力瓶颈已从"模型推理"转向"系统集成"

WildClawBench 用数据说明了一个残酷事实:最强模型在真实环境里不到 62.2%,且改变 harness 比换模型带来的差异还大。这对 Agent 开发者的直接启示是:

Shepherd 则从基础设施层面给出了答案:用形式化方法 + 高效 fork/replay,让「在每个决策点探索所有分支」从理论可行变成工程落地。其 5x Docker 的 fork 速度和 95%+ prompt 缓存复用是关键突破。

趋势判断:2026 年 Agent 领域的主战场正在从「模型能力」转向「评测体系 + 基础设施」。谁先建立真实、可复现的评测基准,谁就能定义下一代 Agent 的优化方向。WildClawBench + Shepherd 这条路线值得关注持续跟进。