Agent Skills 自进化优化:SkillOpt 与 Agentic Proving

为什么重要(2-3句话)

当前 Agent 的技能(Skill)依赖人工编写或一次性生成,无法在反馈中持续改进。SkillOpt 首次将深度学习的优化 discipline(验证集 + 拒绝采样 + 元更新)引入文本空间,让 Agent 技能真正实现自我进化。另一篇研究则证明 Claude Code 在程序验证任务上已达到接近饱和的水平——现有基准已无法区分最强模型。这两个方向共同指向一个结论:Agent 系统的能力边界正在快速扩展,评估方法已严重滞后。

核心论文解读

论文一:SkillOpt — 自进化 Agent 技能的文本空间优化器

arXiv:2605.23904 · Microsoft Research · 27 pages

作者:Yifan Yang, Ziyang Gong, Dongdong Chen 等(15人团队)

方向:Agent Skill Evolution · Text-Space Optimization

核心问题

现有 Agent 技能获取方式有三类缺陷:人工编写成本高且无法规模化;一次性生成无反馈闭环;自修订缺乏约束,容易退化。没有人像训练神经网络权重那样系统地优化技能。

核心方法:SkillOpt

将技能文档视为外部状态而非模型权重,用一个独立的"优化器模型"对技能文档做有界编辑(add/delete/replace),只有验证集分数严格提升的编辑才会被接受。关键机制:

实验结果

指标结果
6个基准 × 7个模型 × 3种执行环境全部52个评测单元中 Best 或 Tied Best
GPT-5.5 direct chat平均 +23.5 分(无技能 vs 有技能)
GPT-5.5 inside Codex agentic loop平均 +24.8 分
GPT-5.5 inside Claude Code平均 +19.1 分
跨模型规模迁移技能在 GPT-5.5 优化后可迁移到其他规模模型
跨执行环境迁移Codex 环境下优化的技能可直接用于 Claude Code

关键技术洞察:将技能当作"外部权重"训练,本质上是把神经网络的优化 discipline(验证集、early stopping、梯度方向更新)迁移到了文本空间。这是一个正交于模型本身的优化维度——不改变模型权重,但改变模型可调用的技能库。

局限性

论文二:Agentic Proving for Program Verification

arXiv:2605.23772 · Alessandro Sosso 等 · 跨四个学科(AI/LO/PL/SE)

方向:Program Verification · Lean 4 · Agentic Theorem Proving

核心问题

Agentic AI 在数学定理证明上已接近 SOTA,但程序验证(让 AI 生成并验证满足规格的代码)能力边界尚不清晰。现有基准难度不足以区分最强模型。

核心方法

CLEVER(Lean 4 可验证代码生成基准)上评测 Claude Code 的 agentic proving 能力,采用 compiler-in-the-loop 架构:

实验结果

阶段准确率
生成有效规格(valid specifications)98.8%
被 CLEVER isomorphism-based scoring 接受(正确部分)81.3%
验证实现与正确 ground-truth 规格一致87.5%
端到端生成+验证(self-consistent premises)98.1%

关键发现:Claude Code 在端到端程序验证 pipeline 上达到 98.1% 成功率,同时能自我诊断失败原因。这说明现有程序验证基准(CLEVER)对于现代 agentic provers 来说已经太简单了——基准本身需要升级。

注意事项:论文指出 isomorphism-based scoring(基于同构判定的评分)对模型生成的规格存在偏差,需要更鲁棒的评估方法。81.3% vs 98.8% 的差距揭示了评分系统本身的局限。

局限性

相关工作

SkillOpt 的技术脉络延伸至:

Agentic Proving 的技术脉络:

我的判断

趋势一:Skills 正在成为一等公民

SkillOpt 证明"技能可优化"而非"技能需手工编写"。这和 LLM 本身从 pretrain 到 RLHF 的进化路径如出一辙——Skills 的训练pipeline(skill extraction → skill optimization → skill deployment)将复制这一范式。

趋势二:评估基准正在快速过时

CLEVER 基准在 Claude Code 上达到 98.1% 端到端成功率,说明这个曾经困难的基准已经无法区分顶级模型。SkillOpt 在 52 个评测单元上全面领先,但具体技能优化后的实际任务改进幅度仍需在真实场景中验证。

趋势三:Compiler-in-the-loop 是形式化任务的最优范式

两篇论文都指向同一个结论:让模型与严格的形式化系统(Lean 4 编译器 / 验证集评分)形成闭环,比纯自然语言反馈更有效。这与 LLM 在代码生成中依赖编译器错误提示进行自我修正是一致的。

对实际工作的影响