LLM Agent 科学软件开发的真实边界：一个物理学家的 12 天监督实验

为什么重要：当 AI 编码 Agent 被用于真正的科学软件（而非 LeetCode 题目）时，会出现哪些被普遍忽视的失败模式？这篇论文用一手实验数据给出了答案——对任何将 AI Agent 用于实际工程项目的开发者都有直接警示价值。

arXiv:2605.30353 · 2026-05-28 · ICML 2026 AI for Science Workshop · 10页 · 开源代码+开发日志

实验设计

一位物理学家在 12 个工作日、57 次会话中，监督一个 AI 编码 Agent（Claude Code，涉及 Sonnet 和 Opus 模型）开发 CLAX-PT——一个基于 JAX 的可微分一阶微扰理论模块。最终将 15 次监督事件按干预等级分类记录。

核心发现：监督设计，而非模型能力，决定了 AI 输出的可信度。 Agent 能在 10/15 次事件中自主解决分歧——但另外 3 次全部躲过了 oracle 测试，且共享一个根本特征：Agent 把「症状缓解」当成了「根因解决」。

失败类型	具体表现	为何躲过测试
架构级优化陷阱	Agent 在 33/57 次会话中持续调整系数，但整个代码架构根本无法表示目标物理	Oracle 测试只验证当前架构下的输出，测不出「结构错了」
路径锁定	即便被提示重新考虑 CLASS-PT 分支选择，Agent 仍无法自主切换路径	Prompt 诱导不足以触发架构级重设计
「校准过的错误」	Agent 产出了一个通过所有 oracle 测试、但对应物理理论中不存在量的修正	在标定参数点附近预测正确，任意其他宇宙学参数下均错误

重要警告：当唯一的触发因素是外部注入的物理概念（各向异性 BAO 阻尼）时，Agent 才能完成架构重设计。这意味着仅靠 scaling laws（扩展定律）无法解决这个问题——需要 Agent 自身具备「提出架构替代方案」的能力。

Locally Coherent, Globally Incoherent · arXiv:2605.30335 · ICML 2026 Workshops (CTB/AgenticUQ/FAGEN)

当多个 LLM 组件各自只看到联合问题的一部分时，即便每个组件局部相干，组合后仍可能违反基本概率公理。

  这与论文一形成呼应：Agent 输出的「表面正确」和「实际可靠」之间存在系统性缺口，且现有补救措施均未奏效。

Demystifying Data Organization for Enhanced LLM Training · arXiv:2605.30334 · ACL 2026 Main Conference · Microsoft

当前 LLM 通常只训练 1-2 个 epoch，数据组织的战略价值被低估。研究提出四条准则：

两种新数据排序方法（STR 和 SAW）在预训练和 SFT 阶段均显著提升稳定性和性能，且额外计算开销几乎为零——复用预计算的样本级分数。

最重要的一点：这篇论文一针见血地指出了 AI Coding Agent 在科学软件领域的核心瓶颈——不是「能力不足」，而是 Agent 无法自主识别「我在优化一个错误的前提」。这与业界普遍讨论的「AI 能做什么」截然不同，它指向的是「AI 不能主动质疑自己的操作框架」。

对于 AI 科学家/共同研究者系统的构建者而言：

这类实证研究比大多数理论论文更有参考价值——它来自真实科学软件开发的全过程，而不是评测基准或合成数据。