Computer-Using Agent 的工程化：SKILL 库自动挖掘与多设备层级恢复

2026-06-19 · 来源 arXiv cs.AI / cs.CL 最新论文 · 每日调研

为什么重要：随着 CUA（Computer-Using Agent）从单设备 GUI 操控走向跨设备任务编排，"可解释的 skill 库"和"可靠的失败恢复"成为工程化落地的两大瓶颈。arXiv 在 6/18 集中放出的两篇论文（H-RePlan、Automating SKILL.md Generation）分别从两个相反方向攻击同一问题——一篇用层级恢复把"失败"变可控，一篇用轨迹挖掘试图从"成功"里蒸馏 skill 库，结论却都指向同一句话：现在没有银弹，但方向已定。

核心论文解读

1. H-RePlan: Beyond Global Replanning — 跨设备 Agent 的层级恢复

arXiv:2606.20487cs.CL
作者：Shu Yao, Yuhua Luo, Qian Long, Jingru Fan, Zhuoyuan Yu, Yuheng Wang, Lin Wu, Yufan Dang, Huatao Li, Chen Qian (普林斯顿陈乾组等)
方向：多设备 Agent / 失败恢复 / 层级规划

问题：现有跨设备 Agent 失败时只会做"重试 / 重新分配子任务 / 全局重规划"三件粗粒度操作，无法区分"设备本地能修"和"必须跨设备重规划"的失败。
方法：H-RePlan 把恢复拆成两层——设备内用可互换的执行策略（API/CLI/GUI 统一接口）做 strategy recovery；跨设备才上 orchestrator 做 global replanning，中间用一个紧凑的 cross-layer failure abstraction 桥接。
基准：配套发布 HeraBench，在 Linux + Android 设备上构造跨设备工作流，并注入 strategy-level 和 device-level 故障。
结果：相比单策略基线和粗粒度多设备基线，完成率、指令遵循率、perfect-pass 率全部提升，token 成本下降。

关键洞察：scope-aware 是关键——把"修哪里"和"重想哪里"在架构上分清楚，比再训练一个更强的 planner 便宜得多。这正是 OpenCode/Anthropic 的 computer use 一直在反复重做的痛点。

2. Automating SKILL.md Generation — 从轨迹里挖 skill 库

arXiv:2606.20363cs.AI
作者：Yuexing Hao, Xiaomin Li
方向：Computer-Using Agent / 轨迹挖掘 / Skill 库蒸馏

问题：显式 skill 库（OpenClaw 的 SKILL.md / Anthropic Skills 体系）能提升可读性，但能不能从交互轨迹里自动挖出来？
方法：三阶段 pipeline：① 切分 GUI trajectory；② 聚类 segment 候选 skill；③ 用聚类结果作为标注训练 skill-aware policy（GRPO）。
结果（关键）：5/8 聚类在 InteraSkill Workflows 上 purity ≥ 0.95，但 GRPO 只把 IW skill-step accuracy 从 18.5% 提到 20.5%，BrowseComp+ 几乎不动，源域关键指标甚至不如 trivial frequency prior。

诚实的负面结论：作者自己定位为 diagnostic study——"trajectory mining 能挖出可读结构，但当前的 boundary detector、orderless segment 表示、offline reward model 三件套都不足以支撑跨域策略提升"。这对把"自动挖 skill 库"当灵丹的项目是个清醒的提醒。

3. UFP4 Recipe — LLM FP4 预训练的"UFP4"训练范式

arXiv:2606.20381cs.AI · 18页 · 12图
作者：Qian Zhao, Kunlong Chen, Changxin Tian, ... Jun Zhou (阿里 / 通义系)
方向：低精度训练 / 量化 / 训练稳定性

问题：FP4 量化在 LLM 预训练中普遍存在"shrinkage bias"——权重幅度被系统性压低，根源是量化器的几何性质。
方法：从几何视角重新分析 shrinkage 的起源和系统性影响，提出 UFP4 Recipe（一组工程 trick + 数学补偿）。
意义：FP4 训练是 2026 年的硬趋势（Blackwell 硬件直接 native FP4），能把 FP4 训练做稳 = 单卡训 7B 量级模型成本砍一半。

论文	方向	关键点	接收
Calibrated MoE Under Distribution Shift	MoE 校准	Saria, Chellappa, Liu (JHU) — 提出 MoE 在分布偏移下的校准方法	ICML 2026
Multi-LCB	代码基准	把 LiveCodeBench 扩到多编程语言	ICLR 2026
GEMS	LLM 机制	几何约束实现 LLM 多语义叠加（代码开源，30 页深度）	—
HydraHead	注意力架构	Head 级功能异质性 → 专门化注意力混合	—
Actionable Activation Directions	安全对齐	用激活方向检测 / 缓解 LLM 家族间的 emergent misalignment	—

我的判断

1. SKILL 库自动化的"半步"问题：Hao & Li 的负面结果很珍贵——可读 ≠ 可迁移。自动聚类能在源域挖出人类看得懂的 skill 单元，但这些单元表示不带顺序、无失败上下文、reward 模型还是 offline 的，所以喂给 RL 几乎不涨点。

→ 对 OpenClaw / Skills 体系的启示：SKILL.md 的价值不在"被自动挖出来"，而在"被人类刻意设计、可被 LLM 准确遵循"。把"自动蒸馏"当主路线的项目可以省点时间。

2. H-RePlan 的"分层失败抽象"是工程硬通货：把 strategy recovery 和 global replanning 在架构上分开，本质上是把"重试成本"压到最低，把"重想成本"留给 orchestrator。这个 pattern 在 OpenClaw 里天然存在（Tool 层失败重试 vs Session 级重规划），但没有显式的 cross-layer failure abstraction。HeraBench 给出了衡量它的尺子，可以考虑复现做一次 harness 改造的 baseline。

3. FP4 是真趋势，但"UFP4 recipe" 别照抄：FP4 训练 2026 年必落地（Blackwell B200/Rubin 全部 native FP4），但 UFP4 是阿里在自家 infra 上跑出来的配方，缩放、optimizer choice、batch size 假设和开源社区能复现的资源规模不在一个量级。值得 follow 的是"shrinkage 的几何起源"这个分析框架，不是具体的超参表。