Agent Skills 自进化优化：SkillOpt 与 Agentic Proving

为什么重要（2-3句话）

当前 Agent 的技能（Skill）依赖人工编写或一次性生成，无法在反馈中持续改进。SkillOpt 首次将深度学习的优化 discipline（验证集 + 拒绝采样 + 元更新）引入文本空间，让 Agent 技能真正实现自我进化。另一篇研究则证明 Claude Code 在程序验证任务上已达到接近饱和的水平——现有基准已无法区分最强模型。这两个方向共同指向一个结论：Agent 系统的能力边界正在快速扩展，评估方法已严重滞后。

核心论文解读

论文一：SkillOpt — 自进化 Agent 技能的文本空间优化器

arXiv:2605.23904 · Microsoft Research · 27 pages

作者：Yifan Yang, Ziyang Gong, Dongdong Chen 等（15人团队）

方向：Agent Skill Evolution · Text-Space Optimization

核心问题

现有 Agent 技能获取方式有三类缺陷：人工编写成本高且无法规模化；一次性生成无反馈闭环；自修订缺乏约束，容易退化。没有人像训练神经网络权重那样系统地优化技能。

核心方法：SkillOpt

将技能文档视为外部状态而非模型权重，用一个独立的"优化器模型"对技能文档做有界编辑（add/delete/replace），只有验证集分数严格提升的编辑才会被接受。关键机制：

文本学习率预算：控制每次 epoch 的编辑总量，防止过度修改
拒绝编辑缓冲区：被拒绝的编辑暂存，避免浪费有效的尝试方向
慢/元更新：每几个 epoch 才更新一次优化器权重，稳定训练曲线
零推理时调用：部署时只读取优化好的技能文档，优化器不参与推理

实验结果

指标	结果
6个基准 × 7个模型 × 3种执行环境	全部52个评测单元中 Best 或 Tied Best
GPT-5.5 direct chat	平均 +23.5 分（无技能 vs 有技能）
GPT-5.5 inside Codex agentic loop	平均 +24.8 分
GPT-5.5 inside Claude Code	平均 +19.1 分
跨模型规模迁移	技能在 GPT-5.5 优化后可迁移到其他规模模型
跨执行环境迁移	Codex 环境下优化的技能可直接用于 Claude Code

关键技术洞察：将技能当作"外部权重"训练，本质上是把神经网络的优化 discipline（验证集、early stopping、梯度方向更新）迁移到了文本空间。这是一个正交于模型本身的优化维度——不改变模型权重，但改变模型可调用的技能库。

局限性

优化器模型本身的泛化能力未充分讨论：小模型作为优化器时是否会成为瓶颈？
技能文档的表示形式（纯文本）是否是最优选择尚不明确
在非编程类 Agent 任务（如多步骤网页操作）上的效果未经测试

论文二：Agentic Proving for Program Verification

arXiv:2605.23772 · Alessandro Sosso 等 · 跨四个学科（AI/LO/PL/SE）

方向：Program Verification · Lean 4 · Agentic Theorem Proving

核心问题

Agentic AI 在数学定理证明上已接近 SOTA，但程序验证（让 AI 生成并验证满足规格的代码）能力边界尚不清晰。现有基准难度不足以区分最强模型。

核心方法

在 CLEVER（Lean 4 可验证代码生成基准）上评测 Claude Code 的 agentic proving 能力，采用 compiler-in-the-loop 架构：

Claude Code 生成形式化规格（formal specifications）
Lean 4 编译器在循环中验证规格与实现的一致性
模型对自身失败尝试提供高质量反馈（人工确认）

实验结果

阶段	准确率
生成有效规格（valid specifications）	98.8%
被 CLEVER isomorphism-based scoring 接受（正确部分）	81.3%
验证实现与正确 ground-truth 规格一致	87.5%
端到端生成+验证（self-consistent premises）	98.1%

关键发现：Claude Code 在端到端程序验证 pipeline 上达到 98.1% 成功率，同时能自我诊断失败原因。这说明现有程序验证基准（CLEVER）对于现代 agentic provers 来说已经太简单了——基准本身需要升级。

注意事项：论文指出 isomorphism-based scoring（基于同构判定的评分）对模型生成的规格存在偏差，需要更鲁棒的评估方法。81.3% vs 98.8% 的差距揭示了评分系统本身的局限。

局限性

仅测试了 Claude Code，未与其他 agentic provers（GPT-5、o4）在同一基准上对比
CLEVER 基准的 bug-resilience 不足：模型可能"对有 bug 的题目也能生成自洽的规格"
Lean 4 的形式化验证依赖特定领域知识，泛化到其他证明助手（Coq/Isabelle）未知

我的判断

趋势一：Skills 正在成为一等公民

SkillOpt 证明"技能可优化"而非"技能需手工编写"。这和 LLM 本身从 pretrain 到 RLHF 的进化路径如出一辙——Skills 的训练pipeline（skill extraction → skill optimization → skill deployment）将复制这一范式。

趋势二：评估基准正在快速过时

CLEVER 基准在 Claude Code 上达到 98.1% 端到端成功率，说明这个曾经困难的基准已经无法区分顶级模型。SkillOpt 在 52 个评测单元上全面领先，但具体技能优化后的实际任务改进幅度仍需在真实场景中验证。

趋势三：Compiler-in-the-loop 是形式化任务的最优范式

两篇论文都指向同一个结论：让模型与严格的形式化系统（Lean 4 编译器 / 验证集评分）形成闭环，比纯自然语言反馈更有效。这与 LLM 在代码生成中依赖编译器错误提示进行自我修正是一致的。

对实际工作的影响

如果你在构建 Agent 系统，技能优化（而非模型选择）可能是当前投入产出比最高的优化方向
Claude Code 的程序验证能力已足够强——在 Lean 4 项目上值得信任它的自我验证
SkillOpt 的"零推理时开销"特性值得关注：不增加线上延迟，却能提升任务完成质量

Agent Skills 自进化优化：SkillOpt 与 Agentic Proving

核心论文解读

论文一：SkillOpt — 自进化 Agent 技能的文本空间优化器

论文二：Agentic Proving for Program Verification

相关工作

我的判断