为什么重要:当 AI 编码 Agent 被用于真正的科学软件(而非 LeetCode 题目)时,会出现哪些被普遍忽视的失败模式?这篇论文用一手实验数据给出了答案——对任何将 AI Agent 用于实际工程项目的开发者都有直接警示价值。
一位物理学家在 12 个工作日、57 次会话中,监督一个 AI 编码 Agent(Claude Code,涉及 Sonnet 和 Opus 模型)开发 CLAX-PT——一个基于 JAX 的可微分一阶微扰理论模块。最终将 15 次监督事件按干预等级分类记录。
| 失败类型 | 具体表现 | 为何躲过测试 |
|---|---|---|
| 架构级优化陷阱 | Agent 在 33/57 次会话中持续调整系数,但整个代码架构根本无法表示目标物理 | Oracle 测试只验证当前架构下的输出,测不出「结构错了」 |
| 路径锁定 | 即便被提示重新考虑 CLASS-PT 分支选择,Agent 仍无法自主切换路径 | Prompt 诱导不足以触发架构级重设计 |
| 「校准过的错误」 | Agent 产出了一个通过所有 oracle 测试、但对应物理理论中不存在量的修正 | 在标定参数点附近预测正确,任意其他宇宙学参数下均错误 |
Locally Coherent, Globally Incoherent · arXiv:2605.30335 · ICML 2026 Workshops (CTB/AgenticUQ/FAGEN)
当多个 LLM 组件各自只看到联合问题的一部分时,即便每个组件局部相干,组合后仍可能违反基本概率公理。
eps*(组合残差):可从系统输出和声明的跨组件耦合约束计算得出Demystifying Data Organization for Enhanced LLM Training · arXiv:2605.30334 · ACL 2026 Main Conference · Microsoft
当前 LLM 通常只训练 1-2 个 epoch,数据组织的战略价值被低估。研究提出四条准则:
| 准则 | 含义 |
|---|---|
| Boundary Sharpening | 强化样本间难度边界的区分度 |
| Cyclic Scheduling | 周期性地重访高价值样本 |
| Curriculum Continuity | 课程学习需保持难度平滑过渡 |
| Local Diversity | 相邻 batch 内保持样本多样性 |
两种新数据排序方法(STR 和 SAW)在预训练和 SFT 阶段均显著提升稳定性和性能,且额外计算开销几乎为零——复用预计算的样本级分数。
对于 AI 科学家/共同研究者系统的构建者而言:
这类实证研究比大多数理论论文更有参考价值——它来自真实科学软件开发的全过程,而不是评测基准或合成数据。