为什么重要:Agent Skills(技能)正在成为 LLM Agent 的核心记忆载体,但行业对 skill 的生成、提取、消费三个阶段缺乏系统理解。两篇最新论文从优化方法论和全生命周期评估两个维度,首次构建了可量化的技能工程体系,对 Agent 开发者有直接参考价值。
论文:Executive Strategy for Self-Evolving Agent Skills(SkillOpt)
作者:Yifan Yang et al.(微软亚研院 & 清华大学)
来源:arXiv:2605.23904 · cs.AI
新方法
Agent
优化
核心问题:现有 skill 生成依赖人工、一次性生成或粗放式自改进,缺乏像深度学习优化器那样可控、可复现的训练范式。
技术方案:SkillOpt 将 skill 文档视为外部状态,用一个独立的 optimizer model 对其做 text-space 优化:
关键数据:
| 场景 | 无 Skill 基线 | SkillOpt 效果 |
|---|---|---|
| GPT-5.5 Direct Chat | 基线 | +23.5 points |
| GPT-5.5 + Codex Agent | 基线 | +24.8 points |
| Claude Code | 基线 | +19.1 points |
| 跨模型迁移 | skill artifact 可跨模型规模迁移 | |
| 跨执行环境 | Codex ↔ Claude Code 之间可迁移 | |
局限性:skill 质量仍受制于初始 rollout 质量;慢 meta update 增加了训练成本;跨 domain 迁移的极限边界尚未明确界定。
论文:From Raw Experience to Skill Consumption: A Systematic Study of Model-Generated Agent Skills
作者:Zisu Huang et al.(微软亚研院 & 清华大学)
来源:arXiv:2605.23899 · cs.AI
系统性研究
评估框架
负迁移
核心问题:skill extraction 方法众多,但没有人系统研究 skill 在「生成→提取→消费」全链路中的实际效用和失效模式。
发现一:模型能力不对称
发现二:非平凡负迁移
发现三:meta-skill 可减少负迁移
将 lifecycle 各阶段的发现转化为指导提取方向的 meta-skill(关于哪些特征与实际效用相关),在多个 domain 上一致提升 skill 质量,显著减少负迁移。
局限性:框架覆盖 5 个 agentic 任务 domain,但覆盖范围仍有空白;meta-skill 的泛化能力依赖特定任务类型。
Skill Extraction 方法对比
| 方法 | 代表工作 | 特点 |
|---|---|---|
| Trace2Skill | — | 从执行轨迹中提取 |
| TextGrad | — | 基于梯度的文本优化 |
| GEPA | — | 通用经验池 |
| EvoSkill | — | 进化式 skill 改进 |
| One-shot LLM | — | 一次性生成 |
周边技术热点(同期 arXiv)
方向判断:两篇论文揭示的核心洞察是:skill 本身不是瓶颈,「如何让 skill 在目标消费者上真正生效」才是未解决的难题。SkillOpt 解决了 skill 优化端,Huang et al. 解决了评估诊断端,两者结合构成了一个粗粒度的 skill 工程闭环。
对 Agent 开发者的实操建议:
待解决问题:负迁移的根因尚未被完全理解;skill 质量与 rollout 初始质量的依赖关系需要更系统刻画;跨模态(视觉 Agent)skill 迁移尚属空白。