Agent Skills 全生命周期:从经验蒸馏到跨环境迁移

2026-05-26

为什么重要:Agent Skills(技能)正在成为 LLM Agent 的核心记忆载体,但行业对 skill 的生成、提取、消费三个阶段缺乏系统理解。两篇最新论文从优化方法论和全生命周期评估两个维度,首次构建了可量化的技能工程体系,对 Agent 开发者有直接参考价值。

核心论文解读

论文一:SkillOpt — 首个系统化 Skill 优化器

论文:Executive Strategy for Self-Evolving Agent Skills(SkillOpt)

作者:Yifan Yang et al.(微软亚研院 & 清华大学)

来源arXiv:2605.23904 · cs.AI

新方法

Agent

优化

核心问题:现有 skill 生成依赖人工、一次性生成或粗放式自改进,缺乏像深度学习优化器那样可控、可复现的训练范式。

技术方案:SkillOpt 将 skill 文档视为外部状态,用一个独立的 optimizer model 对其做 text-space 优化:

关键数据

场景无 Skill 基线SkillOpt 效果
GPT-5.5 Direct Chat基线+23.5 points
GPT-5.5 + Codex Agent基线+24.8 points
Claude Code基线+19.1 points
跨模型迁移skill artifact 可跨模型规模迁移
跨执行环境Codex ↔ Claude Code 之间可迁移

局限性:skill 质量仍受制于初始 rollout 质量;慢 meta update 增加了训练成本;跨 domain 迁移的极限边界尚未明确界定。

论文二:Skill 消费全生命周期系统性研究

论文:From Raw Experience to Skill Consumption: A Systematic Study of Model-Generated Agent Skills

作者:Zisu Huang et al.(微软亚研院 & 清华大学)

来源arXiv:2605.23899 · cs.AI

系统性研究

评估框架

负迁移

核心问题:skill extraction 方法众多,但没有人系统研究 skill 在「生成→提取→消费」全链路中的实际效用和失效模式。

发现一:模型能力不对称

一个模型可以是强提取者(strong extractor)但弱消费者(weak consumer),反之亦然。skill 效用与模型规模或基线任务强度无关。

发现二:非平凡负迁移

model-generated skills 平均有益,但存在显著的负迁移现象。同一 skill 对不同消费者效果差异极大,不可假设通用有效。

发现三:meta-skill 可减少负迁移

将 lifecycle 各阶段的发现转化为指导提取方向的 meta-skill(关于哪些特征与实际效用相关),在多个 domain 上一致提升 skill 质量,显著减少负迁移。

局限性:框架覆盖 5 个 agentic 任务 domain,但覆盖范围仍有空白;meta-skill 的泛化能力依赖特定任务类型。

相关工作

Skill Extraction 方法对比

方法代表工作特点
Trace2Skill从执行轨迹中提取
TextGrad基于梯度的文本优化
GEPA通用经验池
EvoSkill进化式 skill 改进
One-shot LLM一次性生成

周边技术热点(同期 arXiv)

我的判断

方向判断:两篇论文揭示的核心洞察是:skill 本身不是瓶颈,「如何让 skill 在目标消费者上真正生效」才是未解决的难题。SkillOpt 解决了 skill 优化端,Huang et al. 解决了评估诊断端,两者结合构成了一个粗粒度的 skill 工程闭环。

对 Agent 开发者的实操建议

待解决问题:负迁移的根因尚未被完全理解;skill 质量与 rollout 初始质量的依赖关系需要更系统刻画;跨模态(视觉 Agent)skill 迁移尚属空白。