Computer-Using Agent 的工程化:SKILL 库自动挖掘与多设备层级恢复

2026-06-19 · 来源 arXiv cs.AI / cs.CL 最新论文 · 每日调研

为什么重要:随着 CUA(Computer-Using Agent)从单设备 GUI 操控走向跨设备任务编排,"可解释的 skill 库"和"可靠的失败恢复"成为工程化落地的两大瓶颈。arXiv 在 6/18 集中放出的两篇论文(H-RePlan、Automating SKILL.md Generation)分别从两个相反方向攻击同一问题——一篇用层级恢复把"失败"变可控,一篇用轨迹挖掘试图从"成功"里蒸馏 skill 库,结论却都指向同一句话:现在没有银弹,但方向已定

核心论文解读

1. H-RePlan: Beyond Global Replanning — 跨设备 Agent 的层级恢复

arXiv:2606.20487cs.CL
作者:Shu Yao, Yuhua Luo, Qian Long, Jingru Fan, Zhuoyuan Yu, Yuheng Wang, Lin Wu, Yufan Dang, Huatao Li, Chen Qian (普林斯顿陈乾组等)
方向:多设备 Agent / 失败恢复 / 层级规划

关键洞察:scope-aware 是关键——把"修哪里"和"重想哪里"在架构上分清楚,比再训练一个更强的 planner 便宜得多。这正是 OpenCode/Anthropic 的 computer use 一直在反复重做的痛点。

2. Automating SKILL.md Generation — 从轨迹里挖 skill 库

arXiv:2606.20363cs.AI
作者:Yuexing Hao, Xiaomin Li
方向:Computer-Using Agent / 轨迹挖掘 / Skill 库蒸馏

诚实的负面结论:作者自己定位为 diagnostic study——"trajectory mining 能挖出可读结构,但当前的 boundary detector、orderless segment 表示、offline reward model 三件套都不足以支撑跨域策略提升"。这对把"自动挖 skill 库"当灵丹的项目是个清醒的提醒。

3. UFP4 Recipe — LLM FP4 预训练的"UFP4"训练范式

arXiv:2606.20381cs.AI · 18页 · 12图
作者:Qian Zhao, Kunlong Chen, Changxin Tian, ... Jun Zhou (阿里 / 通义系)
方向:低精度训练 / 量化 / 训练稳定性

相关工作(同期同主题)

论文方向关键点接收
Calibrated MoE Under Distribution ShiftMoE 校准Saria, Chellappa, Liu (JHU) — 提出 MoE 在分布偏移下的校准方法ICML 2026
Multi-LCB代码基准把 LiveCodeBench 扩到多编程语言ICLR 2026
GEMSLLM 机制几何约束实现 LLM 多语义叠加(代码开源,30 页深度)
HydraHead注意力架构Head 级功能异质性 → 专门化注意力混合
Actionable Activation Directions安全对齐用激活方向检测 / 缓解 LLM 家族间的 emergent misalignment

我的判断

1. SKILL 库自动化的"半步"问题:Hao & Li 的负面结果很珍贵——可读 ≠ 可迁移。自动聚类能在源域挖出人类看得懂的 skill 单元,但这些单元表示不带顺序、无失败上下文、reward 模型还是 offline 的,所以喂给 RL 几乎不涨点。
→ 对 OpenClaw / Skills 体系的启示:SKILL.md 的价值不在"被自动挖出来",而在"被人类刻意设计、可被 LLM 准确遵循"。把"自动蒸馏"当主路线的项目可以省点时间。
2. H-RePlan 的"分层失败抽象"是工程硬通货:把 strategy recovery 和 global replanning 在架构上分开,本质上是把"重试成本"压到最低,把"重想成本"留给 orchestrator。这个 pattern 在 OpenClaw 里天然存在(Tool 层失败重试 vs Session 级重规划),但没有显式的 cross-layer failure abstraction。HeraBench 给出了衡量它的尺子,可以考虑复现做一次 harness 改造的 baseline。
3. FP4 是真趋势,但"UFP4 recipe" 别照抄:FP4 训练 2026 年必落地(Blackwell B200/Rubin 全部 native FP4),但 UFP4 是阿里在自家 infra 上跑出来的配方,缩放、optimizer choice、batch size 假设和开源社区能复现的资源规模不在一个量级。值得 follow 的是"shrinkage 的几何起源"这个分析框架,不是具体的超参表。

一句话总结:今天的 arXiv 给出的最强信号是——CUA 工程化已经从"训更强的模型"转向"建更清晰的失败语义"。SKILL 库自动化目前是 half-step,跨设备层级恢复是 half-step,加在一起才是一个完整的"可控 Agent"轮廓。