Agent 评测基准的新纪元：WildClawBench 与 Shepherd

2026-05-13 · 每日调研

为什么重要：AI Agent 正从"单步工具调用"进化为"长时序自主执行系统"，但现有评测基准几乎全部停留在合成环境、短任务、Mock API 阶段。两篇 2026 年 5 月 11 日提交的论文从不同方向打破了这一困局——WildClawBench 构建了真实 CLI 运行时的高难度评测集，Shepherd 为元 Agent 开发提供了可验证、可回溯的基础设施层。两者共同揭示：当前最强模型在真实长时序任务上最好成绩仅 62.2%，整个领域仍有巨大提升空间。

核心论文解读

① WildClawBench — 真实运行时 Agent 评测基准

论文：WildClawBench: A Benchmark for Real-World, Long-Horizon Agent Evaluation

作者：上海人工智能实验室 InternLM 团队（Shuangrui Ding, Dahua Lin, Kai Chen 等 17 位）

arXiv：2605.10912 · 代码：InternLM/WildClawBench

关键数据：

指标	数值
任务数量	60 个双语多模态任务
平均耗时	约 8 分钟/任务
平均工具调用	20+ 次/任务
最佳模型成绩（OpenClaw harness）	Claude Opus 4.7 · 62.2%
其他模型	均低于 60%
Harness 切换带来的分数波动	最高 18 个百分点

核心创新：

Native Runtime 评测：每个任务运行在真实 Docker 容器中，内置实际 CLI Agent harness（OpenClaw、Claude Code、Codex、Hermes Agent），而非模拟沙盒。
混合评分机制：结合确定性规则检查、环境状态审计（side-effect audit）、LLM/VLM 语义法官三重机制。
跨 Harness 泛化测试：同一个模型在不同 harness 下分数差异巨大（高达 18pp），说明 Agent 能力与底层基础设施强绑定。

关键技术点：

任务设计覆盖 6 大主题类别，平均 8 分钟 wall-clock 时间。
可复现的容器化评测环境，代码和任务全部开源。
双语设计（推测中英文），验证多语言场景下的 Agent 鲁棒性。

核心结论：即使是最强模型，在真实长时序 CLI 任务上也只达到 62.2%；harness 本身对 Agent 表现影响极大。这意味着 Agent 评测不能只看模型能力，必须把「运行环境 + 工具生态 + 评分机制」作为一个整体来评估。

局限性：

60 个任务规模相对有限，跨领域泛化能力尚未充分验证。
评测成本高（每个任务 8 分钟 + Docker 环境），大规模自动化评测门槛较高。
依赖特定 harness 的适配，对非主流 Agent 框架覆盖不足。

② Shepherd — 元 Agent 的形式化执行基础设施

论文：A Runtime Substrate Empowering Meta-Agents with a Formalized Execution Trace

作者：Simon Yu 等

arXiv：2605.10913

Subjects：cs.AI · cs.PL · cs.SE · 56 页

核心思想：将元 Agent（meta-agent）对目标 Agent 的操作形式化为函数，用 Lean 证明器对核心操作进行机械化验证。Shepherd 以 Git 风格的执行 trace 记录所有 Agent-环境交互，使任意历史状态可 fork 和 replay。

关键技术点：

Forking 性能：Agent 进程 + 文件系统的 fork 速度比 Docker 快 5 倍，prompt 缓存复用率 >95%。
三大应用场景：

Runtime Intervention：实时监督者将 pair coding 通过率从 28.8% 提升至 54.7%（CooperBench）。
Counterfactual Meta-Optimization：分支探索在 4 个基准上最高提升 11 分，同时减少 58% wall-clock 时间。
Tree-RL Training：在选定 turn fork rollout，TerminalBench-2 从 34.2% 提升至 39.4%。

Lean 证明：核心操作在 Lean4 中形式化，证明正确性。

核心结论：Shepherd 为元 Agent 提供了一种高效、可验证、可回溯的运行时基础设施。5 倍于 Docker 的 fork 速度和 >95% 的 prompt 缓存复用，使得「在每个决策点 fork 探索」成为工程上可行的训练策略。

局限性：

依赖 Lean 证明器，工程门槛较高，非形式化方法难以直接复用。
目前仅验证了合作编码和 RL 训练场景，开放域 Agent 场景尚未覆盖。
开源代码尚未公开（论文声明 open-source，但 GitHub 链接未在摘要中出现）。

③ 附：The First Drop of Ink — 长上下文推理的新陷阱

论文：The First Drop of Ink: Nonlinear Impact of Misleading Information in Long-Context Reasoning

arXiv：2605.10828

一篇揭示 RAG/长上下文系统致命弱点的论文：误导性文档（hard distractors）对模型性能的破坏呈非线性——少量 hard distractors（<10%）就会导致性能急剧下降，此后继续增加 distractor 比例带来的边际损失极小。

对 Agent 评测的启示：WildClawBench 强调「真实环境 + 长时序」，但如果上游检索引入误导性信息，即使在最优模型下性能也会非线性崩塌。这意味着评测不仅要考察 Agent 的决策能力，还必须把「上下文质量控制」纳入评测维度。

论文/项目	方向	与本主题的关系
CooperBench（Shepherd 引用）	合作编程评测	Shepherd 应用场景之一
TerminalBench-2（Shepherd 引用）	终端 Agent 评测	Tree-RL 训练效果衡量基准
RubricEM（arXiv:2605.10899）	深度研究 Agent 的 RL 训练	用 rubric 引导长时序 Agent 优化，与 WildClawBench 互补
DeMem（arXiv:2605.10870）	Agent 记忆压缩	决策导向的记忆管理，对长时序 Agent 至关重要
BenchCAD（arXiv:2605.10865）	工业 CAD 生成评测	垂直领域真实评测设计参考

我的判断

这两篇论文共同指向一个核心命题：Agent 的能力瓶颈已从"模型推理"转向"系统集成"。

WildClawBench 用数据说明了一个残酷事实：最强模型在真实环境里不到 62.2%，且改变 harness 比换模型带来的差异还大。这对 Agent 开发者的直接启示是：

评测即基建：没有真实评测环境，Agent 优化就是盲人摸象。
Harness 差异是待开采的金矿：同一个模型换 harness 涨 18pp，说明 Agent 框架层面的优化空间不亚于模型本身。

Shepherd 则从基础设施层面给出了答案：用形式化方法 + 高效 fork/replay，让「在每个决策点探索所有分支」从理论可行变成工程落地。其 5x Docker 的 fork 速度和 95%+ prompt 缓存复用是关键突破。