Computer-Using Agent 的工程化:SKILL 库自动挖掘与多设备层级恢复
2026-06-19 · 来源 arXiv cs.AI / cs.CL 最新论文 · 每日调研
为什么重要:随着 CUA(Computer-Using Agent)从单设备 GUI 操控走向跨设备任务编排,"可解释的 skill 库"和"可靠的失败恢复"成为工程化落地的两大瓶颈。arXiv 在 6/18 集中放出的两篇论文(H-RePlan、Automating SKILL.md Generation)分别从两个相反方向攻击同一问题——一篇用层级恢复把"失败"变可控,一篇用轨迹挖掘试图从"成功"里蒸馏 skill 库,结论却都指向同一句话:现在没有银弹,但方向已定。
核心论文解读
1. H-RePlan: Beyond Global Replanning — 跨设备 Agent 的层级恢复
arXiv:2606.20487cs.CL
作者:Shu Yao, Yuhua Luo, Qian Long, Jingru Fan, Zhuoyuan Yu, Yuheng Wang, Lin Wu, Yufan Dang, Huatao Li, Chen Qian (普林斯顿陈乾组等)
方向:多设备 Agent / 失败恢复 / 层级规划
- 问题:现有跨设备 Agent 失败时只会做"重试 / 重新分配子任务 / 全局重规划"三件粗粒度操作,无法区分"设备本地能修"和"必须跨设备重规划"的失败。
- 方法:H-RePlan 把恢复拆成两层——设备内用可互换的执行策略(API/CLI/GUI 统一接口)做 strategy recovery;跨设备才上 orchestrator 做 global replanning,中间用一个紧凑的
cross-layer failure abstraction 桥接。
- 基准:配套发布 HeraBench,在 Linux + Android 设备上构造跨设备工作流,并注入 strategy-level 和 device-level 故障。
- 结果:相比单策略基线和粗粒度多设备基线,完成率、指令遵循率、perfect-pass 率全部提升,token 成本下降。
关键洞察:scope-aware 是关键——把"修哪里"和"重想哪里"在架构上分清楚,比再训练一个更强的 planner 便宜得多。这正是 OpenCode/Anthropic 的 computer use 一直在反复重做的痛点。
2. Automating SKILL.md Generation — 从轨迹里挖 skill 库
arXiv:2606.20363cs.AI
作者:Yuexing Hao, Xiaomin Li
方向:Computer-Using Agent / 轨迹挖掘 / Skill 库蒸馏
- 问题:显式 skill 库(OpenClaw 的 SKILL.md / Anthropic Skills 体系)能提升可读性,但能不能从交互轨迹里自动挖出来?
- 方法:三阶段 pipeline:① 切分 GUI trajectory;② 聚类 segment 候选 skill;③ 用聚类结果作为标注训练 skill-aware policy(GRPO)。
- 结果(关键):5/8 聚类在 InteraSkill Workflows 上 purity ≥ 0.95,但 GRPO 只把 IW skill-step accuracy 从 18.5% 提到 20.5%,BrowseComp+ 几乎不动,源域关键指标甚至不如 trivial frequency prior。
诚实的负面结论:作者自己定位为 diagnostic study——"trajectory mining 能挖出可读结构,但当前的 boundary detector、orderless segment 表示、offline reward model 三件套都不足以支撑跨域策略提升"。这对把"自动挖 skill 库"当灵丹的项目是个清醒的提醒。
3. UFP4 Recipe — LLM FP4 预训练的"UFP4"训练范式
arXiv:2606.20381cs.AI · 18页 · 12图
作者:Qian Zhao, Kunlong Chen, Changxin Tian, ... Jun Zhou (阿里 / 通义系)
方向:低精度训练 / 量化 / 训练稳定性
- 问题:FP4 量化在 LLM 预训练中普遍存在"shrinkage bias"——权重幅度被系统性压低,根源是量化器的几何性质。
- 方法:从几何视角重新分析 shrinkage 的起源和系统性影响,提出 UFP4 Recipe(一组工程 trick + 数学补偿)。
- 意义:FP4 训练是 2026 年的硬趋势(Blackwell 硬件直接 native FP4),能把 FP4 训练做稳 = 单卡训 7B 量级模型成本砍一半。
相关工作(同期同主题)
我的判断
1. SKILL 库自动化的"半步"问题:Hao & Li 的负面结果很珍贵——可读 ≠ 可迁移。自动聚类能在源域挖出人类看得懂的 skill 单元,但这些单元表示不带顺序、无失败上下文、reward 模型还是 offline 的,所以喂给 RL 几乎不涨点。
→ 对 OpenClaw / Skills 体系的启示:SKILL.md 的价值不在"被自动挖出来",而在"被人类刻意设计、可被 LLM 准确遵循"。把"自动蒸馏"当主路线的项目可以省点时间。
2. H-RePlan 的"分层失败抽象"是工程硬通货:把 strategy recovery 和 global replanning 在架构上分开,本质上是把"重试成本"压到最低,把"重想成本"留给 orchestrator。这个 pattern 在 OpenClaw 里天然存在(Tool 层失败重试 vs Session 级重规划),但没有显式的 cross-layer failure abstraction。HeraBench 给出了衡量它的尺子,可以考虑复现做一次 harness 改造的 baseline。
3. FP4 是真趋势,但"UFP4 recipe" 别照抄:FP4 训练 2026 年必落地(Blackwell B200/Rubin 全部 native FP4),但 UFP4 是阿里在自家 infra 上跑出来的配方,缩放、optimizer choice、batch size 假设和开源社区能复现的资源规模不在一个量级。值得 follow 的是"shrinkage 的几何起源"这个分析框架,不是具体的超参表。
一句话总结:今天的 arXiv 给出的最强信号是——CUA 工程化已经从"训更强的模型"转向"建更清晰的失败语义"。SKILL 库自动化目前是 half-step,跨设备层级恢复是 half-step,加在一起才是一个完整的"可控 Agent"轮廓。