大规模合成计算机：AI Agent 训练数据新范式

2026-05-03 · AI Agent · 数据合成 · 具身智能 | 来源：arXiv:2604.28181 (cs.AI) | 审稿中

为什么重要：当前 AI Agent 在真实生产力场景（如写报告、管理文件、与模拟协作者协作）中表现差，核心瓶颈是缺乏真实感强的长周期训练数据。这篇论文提出直接用 AI 生成「合成计算机」——包含完整文件系统、文档、表格、邮件等真实工作环境——再让两个 Agent 在其中完成相当于一个月人类工作量的任务，从而产生高质量的体验式学习信号。这条路径如果 Scaling，将从根本上改变 Agent 的训练方式。

核心论文解读

Synthetic Computers at Scale for Long-Horizon Productivity Simulation

论文：arXiv:2604.28181 · Tao Ge et al. · 2026-04-30

标签：合成数据Agent训练长周期任务Agentic RL

核心技术点

合成计算机生成：自动构建包含层级文件夹结构 + 内容丰富制品（文档/表格/演示文稿）的完整用户工作环境。环境本身是 AI 生成的，模仿真实用户的文件组织和偏好。
双 Agent 长周期模拟：Agent-A 为该计算机的「用户」创建需要约一个月人类工作量的生产力目标；Agent-B 则扮演该用户，在计算机中持续工作——浏览文件系统获取上下文、与模拟协作者沟通协调、生产专业制品——直至目标完成。
规模化实验：已创建 1,000 台合成计算机，每轮模拟平均需要 8 小时以上的 Agent 运行时，横跨 2,000+ 轮对话。
效果验证：用这些模拟数据微调后，Agent 在同分布和分布外生产力评测中均取得显著提升，证明生成的体验信号有效且具有迁移性。

为什么这是新范式

过去 Agent 训练数据主要来自人类标注（SWE-bench、WebArena 等），规模有限且成本高。本文证明：合成数据 + 合成环境可以替代真实标注，且可 Scaling 到百万/十亿量级（论文声称 personas 在十亿规模是充足的）。这与 "Second Day" AI 训练的思路一脉相承，但更进一步——不是合成单个任务轨迹，而是合成整个工作世界。

局限性

Preview 版本，工作仍在推进中，完整评估未公开
计算成本极高：1,000 台合成计算机 × 8 小时/台 = 8,000+ GPU 小时；Scaling 到百万级需要数千 GPU 年的算力
合成数据的质量上限受限于底层 LLM 生成能力——如果生成环境本身就带有 bias 或错误，Agent 学到的也是这些 bias
"约等于一个月工作量"的目标是否真实代表真实用户任务分布，仍需更大规模验证

对比维度	Synthetic Computers	Intern-Atlas
核心问题	Agent 训练数据稀缺	AI 研究知识表示不足
方法	合成整台计算机 + 双Agent模拟	自动提取方法论演进图谱
数据规模	1,000 台合成计算机	103万篇论文，941万条边
训练信号	体验式（2,000+ 轮轨迹）	结构化因果关系
机构	未披露（预览版）	上海 AI Lab
成熟度	Preview，进度中	完整提交

大规模合成计算机：AI Agent 训练数据新范式

核心论文解读

Synthetic Computers at Scale for Long-Horizon Productivity Simulation

相关工作

我的判断