为什么重要 — 2026 年 agent 领域出现一个清晰拐点:HarnessX 工作在 5 个 benchmark 上平均 +14.5%、最高 +44%,而作者明确把成果归因于"runtime 接口的组合与演化",而不是更大的模型。同周 Philip S. Yu 团队的 21 人综述把这条路径命名为"Digital Colleague",并把它和 OpenClaw 这类 workstation 系统对齐。这不是单点优化,是"agent 进展的第二条增长曲线"。
arXiv:2606.14249 cs.AI 2026-06-12
作者:Tingyang Chen, Shuo Lu, Kang Zhao, Weicheng Meng 等 14 人(未见具体机构,代码即将开源)。
问题定位:作者直言"agent 性能关键不取决于模型,而取决于 runtime harness——prompt、tools、memory、control flow 这套中介层"。但当下 harness 是手写、静态的:换个模型就要重写 scaffolding,执行轨迹也几乎不会回灌到 harness 改进里。
三件事:
实验结果:ALFWorld / GAIA / WebShop / tau³-Bench / SWE-bench Verified 五个 benchmark 平均 +14.5%,最高 +44%。关键观察是"基线越弱,提升越大"——这意味着 harness 演化在补模型能力短板,而非取代模型。
局限性:
arXiv:2606.14502 cs.AI 2026-06-12
作者:Yongheng Zhang, Ziang Liu, ... , Philip S. Yu(21 人,含 Yinghui Li, Xing Sun 等清华/Snowflake 系)。项目页:from-chatbot-to-digital-colleague.github.io。
主张:LLM 正在经历"从对话生成器到集成 AI 系统"的根本转变,作者把这个转变命名为 Chatbot → Digital Colleague,沿两个耦合维度展开:
关键短语是 "Workspace + Skill" 范式:把 episodic 工具调用变成 colleague-like 的状态持久、可复用流程、任务闭环、经验复用。
数据-评估转变:从 instruction-response 对 → State-Action-Observation 轨迹;从静态 benchmark → sandboxed, auditable, self-evolving AI ecosystem。
局限性:
arXiv:2606.14415 cs.AI ICML 2026 Spotlight
作者:Ayoub Belouadah, Sylvain Kubler, Yves Le Traon(Luxembourg / 卢森堡大学)。
问题:primal-dual Safe RL 经常延迟修正约束,导致边界震荡、长时间违规。
解法:一阶 primal-dual,把"到安全边界的最短有符号距离"作为 local constraint sensitivity 注入策略更新,补偿 Lagrange multiplier 的延迟,减少边界震荡,同时保留原问题的 KKT 解。
价值:虽然不是 agent harness 主题,但它示范了"在不动基础模型的情况下,通过局部几何敏感性改进优化过程"——这是 harness engineering 的另一个应用面。
arXiv:2606.14199 cs.CL 代码+模型已开源
作者:Xuhui Zhou, Weiwei Sun, ..., Tongshuang Wu, Yiming Yang, Maarten Sap(CMU LTI)。代码 github.com/sunnweiwei/OdysSim,模型 HuggingFace cmu-lti/odyssim。
问题:LLM 当人类模拟器用时,helpfulness 驱动后训练把它推向"过度顺从的助手",造成 behavioral Sim2Real gap。
解法:
结果:8B OSim 模型在 23 个任务中 8 个排名第一或并列第一,超过任何 frontier 模型(以这个数量为口径);τ-bench 上零样本接近真人(93.2 vs 93.5)。
和今天主题的关系:这是"harness 不止 runtime 配置,涵盖训练范式"的证据——要做专门能力(行为模拟),必须打破通用 helpfulness 后训练,走专用训练路径。
| 方向 | 代表工作 | 立场 |
|---|---|---|
| Harness 工程化 | HarnessX (2026-06) | 把 harness 当一等公民,组合+演化 |
| Agent 范式综述 | From Chatbot to Digital Colleague (2026-06) | OpenClaw-style workstation = 新范式 |
| RL 过程优化 | CSPO (ICML 2026) | 约束敏感性作为优化信号 |
| 行为基础模型 | OdysSim (CMU, 2026-06) | 专用训练打破通用 helpfulness |
| GUI Agent 训练 | VISTA (arXiv:2606.14579) | 自验证训练提升 grounding |
| Agent Memory | StreamMemBench (arXiv:2606.14571) | 流式 memory 评估 |
| Skill 进化 | SkillAudit (arXiv:2606.14239) | 无 ground-truth 的技能审计 |
| Safe RL | CSPO (ICML 2026 Spotlight) | 局部几何敏感性 |
把今天这组论文串起来,可以看到三个层次的原理:
模型只看到它被喂的东西。prompt 怎么写、tool 暴露多少、memory 切片多细、control flow 在哪一步回环——这些决定了模型推理时拿到的"问题空间"长什么样。改 harness = 改模型看到的世界。
HarnessX 的 AEGIS 和 OdysSim 的 mid-training 都依赖同一条核心洞察:执行轨迹不只是 log,是 reward。如果能把轨迹结构化(AEGIS 的 trace-driven 演化、OdysSim 的 SOUL 五维),它就同时能训 harness 和训 model。
HarnessX 的 typed primitives + substitution algebra 不是装饰,是必要前提。要让 harness 可组合可演化,必须先把"prompt、tool、memory、control flow"统一成一个类型系统。否则 AEGIS 演化出来的就是不可控的"代码屎山"。
这组论文合在一起,验证了 OpenClaw 自 6.6 起的架构转向——把 harness 当 database-first 一等公民,而不是围绕模型的胶水。具体三条: