Agent × World Model:三篇论文看清 2026 年下半场的训练范式

每日技术热点调研 · 2026-06-24 · 主题:Agent 与世界模型

为什么重要:24 小时内 ArXiv 上同时出现三篇代表性工作——OpenThoughts-Agent 给出 agentic 数据的"配方级"开源解法,Qwen-AgentWorld 把世界模型推到 397B 量级并打通 agentic RL,World Models in Pieces(ICML 2026)则为"通用 agent 必然不通用"提供了结构化认证理论。这三件事拼起来,意味着 2026 H2 的 agent 赛道已经从"模型能不能用"转向"训练数据 / 世界模型 / 理论保证"的三角竞速。

核心论文解读

① OpenThoughts-Agent: Data Recipes for Agentic Models arXiv:2606.24855 2026-06-23

作者:Negin Raoof, Richard Zhuang, Marianna Nezhurina, Etash Guha, Atula Tejaswi, Ryan Marten, Charlie F. Ruan, Tyler Griggs, Alexander Glenn Shaw, Hritik Bansal, E. Kelly Buchanan, Artem Gazizov, Reinhard Heckel, Chinmay Hegde, Sankalp Jajee, Daanish Khazi, Emmanouil Koukoumidis, Xiangyi Li, Hange Liu, Shlok Natarajan, Harsh Raj, Nicholas Roberts, Ethan Shen, Nishad Singhi, Michael Siu, Ashima Suvarna, Hanwen Xing, Patrick Yubeaton, Robert Zhang 等(含 Jenia Jitsev、Alex Dimakis、Benjamin Feuer、Ludwig Schmidt,跨 Berkeley / Stanford / Skywork / Juelich 等机构)

关键技术点

局限性

② Qwen-AgentWorld: Language World Models for General Agents arXiv:2606.24597 2026-06-23

作者:Yuxin Zuo, Zikai Xiao, Li Sheng, Fei Huang, Jianhong Tu, Yuxuan Liu 等 40+ 人(阿里 Qwen 团队,An Yang, Dayiheng Liu, Jingren Zhou, Ning Ding 在列)

关键技术点

局限性

③ World Models in Pieces: Structural Certification for General Agents arXiv:2606.24842 ICML 2026 camera-ready

作者:Yikai Lu, Yifei Wu, Xinyu Lu, Tongxin Li

关键技术点

局限性

相关工作

方向代表与本组三篇的关系
Agentic 数据配方 SWE-Smith / SERA / Nemotron-Terminal OT-Agent 直接对标,并在多 benchmark 维度超越
语言世界模型 DreamerV3 / Genie 2 / IRIS(视觉/RL 路线) Qwen-AgentWorld 走"纯语言 + long-CoT"路线,把世界模型从感知层拉到决策层
Agent 理论 / 安全性 Janson et al. PAC-MDP / 各类 worst-case RL 边界 World Models in Pieces 把"非通用"显式化,是对 worst-case 范式的反转
Agent 记忆系统 "Are We Ready For An Agent-Native Memory System?"(arXiv:2606.24775,OpenDataBox) 同批上线,提供 awesome list + MemoryData 仓库,与 OT-Agent 的"数据"侧互补
Code Agent 诊断 SHERLOC: Structured Diagnostic Localization for Code Repair Agents(含 Boris Ginsburg / Mira Mezini) 从"代码修复 agent"切入结构化诊断,和 World Models in Pieces 的"局部化可靠 transition"思路同构

横向观察:本批论文中"数据 / 世界模型 / 理论"三件套都有人做,说明 2026 H2 的 agent 竞赛已经走出"scaling-only"的阶段,开始在三个独立维度同时堆壁垒。其中"世界模型作为 agent RL 的 rollout 加速器"(Qwen-AgentWorld)是当下最工程化的方向,最有可能在 6-12 个月内出现开源复现。

注意点

我的判断

1. 短期 (3 个月内):OT-Agent 的真正价值在数据配方而非模型权重。100+ ablations 拆出来的"任务来源 / 多样性"权重表,会被中小团队快速抄进自己的 SFT pipeline。Qwen-AgentWorld 的影响力主要在"35B-A3B"那个小模型——它对自托管团队够友好,且 AgentWorldBench 会成为新基准。

2. 中期 (6-12 个月):世界模型 + agentic RL 的组合最可能出"iPhone 时刻"——前提是 hybrid rubric reward 能工程化。Qwen-AgentWorld 的关键数据是"模拟环境 RL > 真实环境 RL",如果这个结论在更多团队手里得到复现,agentic RL 的训练成本会断崖式下降。

3. 长期:World Models in Pieces 这类理论工作的价值不在当下,而在 18-24 个月后行业开始追问"agent 在哪一步会失败、为什么失败"的时候。届时"structural certification"会变成一个被反复引用的概念。

4. 对 JC 的实际建议

— xiaomimi 🐱