为什么重要:AI Agent 正从"单步工具调用"进化为"长时序自主执行系统",但现有评测基准几乎全部停留在合成环境、短任务、Mock API 阶段。两篇 2026 年 5 月 11 日提交的论文从不同方向打破了这一困局——WildClawBench 构建了真实 CLI 运行时的高难度评测集,Shepherd 为元 Agent 开发提供了可验证、可回溯的基础设施层。两者共同揭示:当前最强模型在真实长时序任务上最好成绩仅 62.2%,整个领域仍有巨大提升空间。
论文:WildClawBench: A Benchmark for Real-World, Long-Horizon Agent Evaluation
作者:上海人工智能实验室 InternLM 团队(Shuangrui Ding, Dahua Lin, Kai Chen 等 17 位)
arXiv:2605.10912 · 代码:InternLM/WildClawBench
关键数据:
| 指标 | 数值 |
|---|---|
| 任务数量 | 60 个双语多模态任务 |
| 平均耗时 | 约 8 分钟/任务 |
| 平均工具调用 | 20+ 次/任务 |
| 最佳模型成绩(OpenClaw harness) | Claude Opus 4.7 · 62.2% |
| 其他模型 | 均低于 60% |
| Harness 切换带来的分数波动 | 最高 18 个百分点 |
核心创新:
关键技术点:
核心结论:即使是最强模型,在真实长时序 CLI 任务上也只达到 62.2%;harness 本身对 Agent 表现影响极大。这意味着 Agent 评测不能只看模型能力,必须把「运行环境 + 工具生态 + 评分机制」作为一个整体来评估。
局限性:
论文:A Runtime Substrate Empowering Meta-Agents with a Formalized Execution Trace
作者:Simon Yu 等
arXiv:2605.10913
Subjects:cs.AI · cs.PL · cs.SE · 56 页
核心思想:将元 Agent(meta-agent)对目标 Agent 的操作形式化为函数,用 Lean 证明器对核心操作进行机械化验证。Shepherd 以 Git 风格的执行 trace 记录所有 Agent-环境交互,使任意历史状态可 fork 和 replay。
关键技术点:
核心结论:Shepherd 为元 Agent 提供了一种高效、可验证、可回溯的运行时基础设施。5 倍于 Docker 的 fork 速度和 >95% 的 prompt 缓存复用,使得「在每个决策点 fork 探索」成为工程上可行的训练策略。
局限性:
论文:The First Drop of Ink: Nonlinear Impact of Misleading Information in Long-Context Reasoning
arXiv:2605.10828
一篇揭示 RAG/长上下文系统致命弱点的论文:误导性文档(hard distractors)对模型性能的破坏呈非线性——少量 hard distractors(<10%)就会导致性能急剧下降,此后继续增加 distractor 比例带来的边际损失极小。
对 Agent 评测的启示:WildClawBench 强调「真实环境 + 长时序」,但如果上游检索引入误导性信息,即使在最优模型下性能也会非线性崩塌。这意味着评测不仅要考察 Agent 的决策能力,还必须把「上下文质量控制」纳入评测维度。
| 论文/项目 | 方向 | 与本主题的关系 |
|---|---|---|
| CooperBench(Shepherd 引用) | 合作编程评测 | Shepherd 应用场景之一 |
| TerminalBench-2(Shepherd 引用) | 终端 Agent 评测 | Tree-RL 训练效果衡量基准 |
| RubricEM(arXiv:2605.10899) | 深度研究 Agent 的 RL 训练 | 用 rubric 引导长时序 Agent 优化,与 WildClawBench 互补 |
| DeMem(arXiv:2605.10870) | Agent 记忆压缩 | 决策导向的记忆管理,对长时序 Agent 至关重要 |
| BenchCAD(arXiv:2605.10865) | 工业 CAD 生成评测 | 垂直领域真实评测设计参考 |
这两篇论文共同指向一个核心命题:Agent 的能力瓶颈已从"模型推理"转向"系统集成"。
WildClawBench 用数据说明了一个残酷事实:最强模型在真实环境里不到 62.2%,且改变 harness 比换模型带来的差异还大。这对 Agent 开发者的直接启示是:
Shepherd 则从基础设施层面给出了答案:用形式化方法 + 高效 fork/replay,让「在每个决策点探索所有分支」从理论可行变成工程落地。其 5x Docker 的 fork 速度和 95%+ prompt 缓存复用是关键突破。
趋势判断:2026 年 Agent 领域的主战场正在从「模型能力」转向「评测体系 + 基础设施」。谁先建立真实、可复现的评测基准,谁就能定义下一代 Agent 的优化方向。WildClawBench + Shepherd 这条路线值得关注持续跟进。