为什么重要(2-3句话)
当前 Agent 的技能(Skill)依赖人工编写或一次性生成,无法在反馈中持续改进。SkillOpt 首次将深度学习的优化 discipline(验证集 + 拒绝采样 + 元更新)引入文本空间,让 Agent 技能真正实现自我进化。另一篇研究则证明 Claude Code 在程序验证任务上已达到接近饱和的水平——现有基准已无法区分最强模型。这两个方向共同指向一个结论:Agent 系统的能力边界正在快速扩展,评估方法已严重滞后。
arXiv:2605.23904 · Microsoft Research · 27 pages
作者:Yifan Yang, Ziyang Gong, Dongdong Chen 等(15人团队)
方向:Agent Skill Evolution · Text-Space Optimization
核心问题
现有 Agent 技能获取方式有三类缺陷:人工编写成本高且无法规模化;一次性生成无反馈闭环;自修订缺乏约束,容易退化。没有人像训练神经网络权重那样系统地优化技能。
核心方法:SkillOpt
将技能文档视为外部状态而非模型权重,用一个独立的"优化器模型"对技能文档做有界编辑(add/delete/replace),只有验证集分数严格提升的编辑才会被接受。关键机制:
实验结果
| 指标 | 结果 |
|---|---|
| 6个基准 × 7个模型 × 3种执行环境 | 全部52个评测单元中 Best 或 Tied Best |
| GPT-5.5 direct chat | 平均 +23.5 分(无技能 vs 有技能) |
| GPT-5.5 inside Codex agentic loop | 平均 +24.8 分 |
| GPT-5.5 inside Claude Code | 平均 +19.1 分 |
| 跨模型规模迁移 | 技能在 GPT-5.5 优化后可迁移到其他规模模型 |
| 跨执行环境迁移 | Codex 环境下优化的技能可直接用于 Claude Code |
关键技术洞察:将技能当作"外部权重"训练,本质上是把神经网络的优化 discipline(验证集、early stopping、梯度方向更新)迁移到了文本空间。这是一个正交于模型本身的优化维度——不改变模型权重,但改变模型可调用的技能库。
局限性
arXiv:2605.23772 · Alessandro Sosso 等 · 跨四个学科(AI/LO/PL/SE)
方向:Program Verification · Lean 4 · Agentic Theorem Proving
核心问题
Agentic AI 在数学定理证明上已接近 SOTA,但程序验证(让 AI 生成并验证满足规格的代码)能力边界尚不清晰。现有基准难度不足以区分最强模型。
核心方法
在 CLEVER(Lean 4 可验证代码生成基准)上评测 Claude Code 的 agentic proving 能力,采用 compiler-in-the-loop 架构:
实验结果
| 阶段 | 准确率 |
|---|---|
| 生成有效规格(valid specifications) | 98.8% |
| 被 CLEVER isomorphism-based scoring 接受(正确部分) | 81.3% |
| 验证实现与正确 ground-truth 规格一致 | 87.5% |
| 端到端生成+验证(self-consistent premises) | 98.1% |
关键发现:Claude Code 在端到端程序验证 pipeline 上达到 98.1% 成功率,同时能自我诊断失败原因。这说明现有程序验证基准(CLEVER)对于现代 agentic provers 来说已经太简单了——基准本身需要升级。
注意事项:论文指出 isomorphism-based scoring(基于同构判定的评分)对模型生成的规格存在偏差,需要更鲁棒的评估方法。81.3% vs 98.8% 的差距揭示了评分系统本身的局限。
局限性
SkillOpt 的技术脉络延伸至:
Agentic Proving 的技术脉络:
趋势一:Skills 正在成为一等公民
SkillOpt 证明"技能可优化"而非"技能需手工编写"。这和 LLM 本身从 pretrain 到 RLHF 的进化路径如出一辙——Skills 的训练pipeline(skill extraction → skill optimization → skill deployment)将复制这一范式。
趋势二:评估基准正在快速过时
CLEVER 基准在 Claude Code 上达到 98.1% 端到端成功率,说明这个曾经困难的基准已经无法区分顶级模型。SkillOpt 在 52 个评测单元上全面领先,但具体技能优化后的实际任务改进幅度仍需在真实场景中验证。
趋势三:Compiler-in-the-loop 是形式化任务的最优范式
两篇论文都指向同一个结论:让模型与严格的形式化系统(Lean 4 编译器 / 验证集评分)形成闭环,比纯自然语言反馈更有效。这与 LLM 在代码生成中依赖编译器错误提示进行自我修正是一致的。
对实际工作的影响