评估时间: 2026-04-29 17:45 CST
评估范围: 3 批共 8 个子 agent
评估者: xiaomimi 🐱
8/8 子 agent 全部产出完整报告,全部转 HTML 上线 GitHub Pages。
| 任务 | report.md | HTML | 归档 | 质量 |
|---|---|---|---|---|
| coding-agent-benchmark | 22.7KB | ✅ | ✅ | 4 工具对比+benchmark+costs |
| crawl-framework | 13KB+17KB代码+5.6KB skill | ✅ | ✅ | 产出最全 |
| agent-context-protocol | 30.7KB+18.6KB代码 | ✅ | ✅ | 业界参考+协议设计 |
skill 暴露的问题:
- 上一个 session 误判(并行 completion event 未独立处理)→ v5 已修
- 子 agent prompt 里写了 $WORKSPACE/sessions.jsonl,isolated context 无法展开 → v5 已修(职责归主 agent)
| 任务 | report.md | HTML | 归档 | 质量 |
|---|---|---|---|---|
| codex-deploy-guide | 21.6KB | ✅ | ✅ | Lightsail/EC2/GitHub Actions三个场景 |
| gitnexus-review | 15.9KB | ✅ | ✅ | 能力边界+许可证风险分析 |
| yixing-travel-plan | 11.4KB | ✅ | ✅ | 3天行程+宠物友好+充电站 |
skill 暴露的问题: 子 agent 产出 HTML 报错无回滚机制(降级到 raw markdown 即可)
| 任务 | report.md | HTML | 归档 | 质量 |
|---|---|---|---|---|
| getnotes-analysis | 11.1KB | ✅ | ✅ | 模型溯源+prompt engineering分析 |
| gov-doc-chatbot | 35KB | ✅ | ✅ | 4 公文体 prompt 模板+RAG 架构+成本估算 |
| Phase | 行为 | 评价 |
|---|---|---|
| 1.1 Deny 拦截 | 8/8 正常通过,无 deny 命中 | ✅ |
| 1.2 Prompt 构建 | v5 版本职责分界生效,子 agent 不再尝试写 sessions.jsonl | ✅ |
| 1.3 Spawn | 全部 timeoutSeconds:600,1 次 timeout(gov-doc-chatbot 实际 ~480s) | ✅ 边界足够 |
| 1.4 登记 | Batch 1 完整,Batch 2/3 registry 缺少 sessionKey | ⚠️ 修复中 |
| Phase 2 监控 | 在 session 切换中 completion event 正确到达 | ✅ |
| 3.1 收集 | 优先读 archive → fallback 读 report.md | ✅ |
| 3.4 Registry 更新 | 部分更新(Batch 1 完整,Batch 2/3 需要补) | ⚠️ |
| 4.1-4.3 归档 | sessions.jsonl + MEMORY.md + registry archived | ✅ |
| 4.4 GitHub Pages | 全部 8 份 HTML 上线,索引自动更新 | ✅ |
| 4.4 Telegram 通知 | 按新规则只发链接,不发文件 | ✅ |
Batch 2/3 的 registry 记录 sessionKey 字段丢失(显示为 ?),根因是 Phase 3.4/4.3 的 shell 脚本变量 $KEY 在 session 切换后未正确获取。不影响产出(HTML 都在),但 registry 作为单一事实源不可靠。
修复: 在 Phase 3.4/4.3 前从 subagent-archive/<label>.md 的 YAML frontmatter 中提取 sessionKey。
8 个任务只有 batch 1 的 3 个写了 subagent-archive。后续任务的自归档文件位置分散(被写在各自的 PROJECT_DIR 下而非统一的 subagent-archive/)。Phase 3.1 的 fallback 到 report.md 缓解了影响。
修复: Phase 3.1 增加搜索逻辑——先搜统一目录,再搜 PROJECT_DIR。
实际运行约 480s,600s 超时刚好兜住。该任务涉及大量 web_search + RAG 架构设计+prompt 模板生成,合并在一个子 agent 里偏重。
建议: 若单任务预计 tool call > 20 次,考虑拆成两个子 agent(调研 + 设计)。
| 维度 | v4 表现 | v5 改进 |
|---|---|---|
| 职责分界 | 子 agent 尝试写 sessions.jsonl 失败 | ✅ 子 agent 只写自归档+结果文件 |
| 路径变量 | $WORKSPACE 无法展开 |
✅ prompt 中全部用绝对路径 |
| 并行处理 | 误判整批失败 | ✅ 独立处理每个 completion event |
| 手机阅读 | 内联代码块体验差 | ✅ GitHub Pages HTML 暗色主题 |
| prompt 具体性 | 无指导 | ✅ 1.2 节加经验表 |
| 维度 | 评分 | 说明 |
|---|---|---|
| 可用性 | ⭐⭐⭐⭐⭐ | 8/8 任务产出完整,生产可用 |
| 健壮性 | ⭐⭐⭐⭐ | Registry 小问题不影响产出,需修 |
| 可维护性 | ⭐⭐⭐⭐ | 审计/索引/归档链路清晰 |
| 自动化 | ⭐⭐⭐⭐⭐ | spawn→产出→HTML→GitHub Pages 全自动 |
| 文档完整性 | ⭐⭐⭐⭐⭐ | Skill 文档 v5 覆盖所有实战发现 |
结论: subagent-lifecycle v5 已达到生产可用级别。registry 字段提取问题修复后即可定稿。