| 指标 | 值 |
|---|---|
| 文件大小 | 585,380 字节(~571 KB) |
| 估计 token 数 | ~146K tokens(API 报告 ~171K prompt tokens) |
| 总行数 | 8,738 行 |
| 噪音数据 | 150 组重复豆瓣书籍 JSON(每组 ~1K tok) |
| 目标文档位置 | 第 4,281 行(正中间),~8KB,绘本知识图谱规划文档 |
| 目标文档 token | ~2K tokens(占总材料 ~1.4%) |
策略:前半 75 组噪音 → 目标文档 → 后半 75 组噪音。目标文档在材料中间的「深水区」,测试模型是否能穿透噪音定位到精确信息。
| 等级 | 含义 |
|---|---|
| ✅ 完全正确 | 数字/事实/出处全对 |
| ⚠️ 部分正确 | 大致对但有 1-2 个错误 |
| ❌ 错误/回避 | 编造、找错、说"不知道" |
正确答案:总数 1891 本,done 1833,pending 45,rejected 13
根据目标文档《绘本知识图谱 · 规划与现状对照》第三节"数据库现状 (实测 2026-05-05)"的记录: - 总数:1891 本 - done(已完成):1833 本 ✅ - pending(待提炼):45 本 ⏳ - rejected(已拒绝):13 本 🚫 原文表述为: > 总数 1891 本 > ├── done: 1833 ✅ > ├── pending: 45 ⏳ 待提炼 > └── rejected: 13 🚫
根据文档中"三、数据库现状(实测 2026-05-05)"的记录: - 总共有 1891 本书 - 已完成 (done):1833 本 - pending:45 本 - rejected:13 本
点评:双方完全正确。M3 引用了原始排版格式(树状图),更生动但 tokens 相近。v4-pro 第一轮无 cache 导致延迟较高(23.8s),而 M3 只用了 12.6s。
正确答案:S6 = 跨书关系发现 + 套系分析 + 审核界面;状态 = "未开始(最大gap)",材料未说明具体原因
S6 是第 8 周的 Sprint,规划目标为"跨书关系发现;套系分析;审核界面"。 具体包括:BookRelation 表(5种关系)、Series 表、same_theme、 emotional_progression、character_archetype、style_lineage、 intertextual 关系发现、置信度过滤、reviewed 审核界面。 为什么没开始:材料中没有直接解释 S6 未启动的原因。但根据文档推断: 1. 被标注为"最大 gap" 2. 排在 P2 优先级(在 P0/P1 之后) 3. 前序 Sprint S4 也未完成 4. 底层能力已具备但上层未串联 总结:材料明确说明状态但未给出明确延期原因。
S6 是做什么的: S6(第8周)的规划目标是"跨书关系发现;套系分析;审核界面"。 具体包括 BookRelation 表、Series 表,以及 same_theme、 emotional_progression、character_archetype、style_lineage、 intertextual 等跨书关系发现。 为什么没开始: 文档中描述其实际状态为"❌ 未开始(最大gap)",在 P2 优先级。 但文档并未直接陈述其未能开始的具体原因。
点评:双方都正确回答了 S6 做什么。关于"为什么没开始",双方都诚实指出材料未明确说明原因,这是正确的。M3 额外做了合理推断(优先级排序、前序 Sprint 依赖),虽然不在材料中但标注为"推断"是诚实的。v4-pro 更简洁精准,没有过度推理。
正确答案:① ageRange unknown 补标注(970 本过半为空)② pending 45 本提炼
P0 优先级的未完成项共有 2 项: 1. ageRange unknown 补标注 — 970本过半为空,影响用户体验 2. pending 45 本提炼 — 触发 batch-analyze 跑完 (以上为原文逐条引用,材料中未给出更多 P0 项。)
P0(阻断数据质量的)优先级未完成项如下: 1. ageRange unknown 补标注 — 970本过半为空,影响用户体验 2. pending 45 本提炼 — 触发 batch-analyze 跑完
点评:完全一致,双方精准检索。v4-pro 延迟只有 5.4s(得益于 prompt cache),M3 是 8.9s。
正确答案:4 个字段全部标记为"❌ schema有,AI未提取"(未完成)
这四个字段在文档中均标记为未完成(未提取)。 字段 状态 narrativeStructure ❌ schema有,AI未提取 characterArchetype ❌ schema有,AI未提取 characterTags ❌ schema有,AI未提取 qualitySignals ❌ schema有,AI未提取 优先级定位:属于 P2(深化知识的),在文档第五章也有提及。 对比已完成的字段(ageRange/origin/themeTags 等)均已完成填充。
根据"4.2 标签体系"部分: * narrativeStructure:❌ schema有,AI未提取 * characterArchetype:❌ schema有,AI未提取 * characterTags:❌ schema有,AI未提取 * qualitySignals:❌ schema有,AI未提取 因此,这四个字段在文档中均标记为未完成状态。
点评:完全正确。M3 补充了优先级和已完成的对比字段,信息量更大。v4-pro 更简洁但同样准确。注意 M3 的 Q4 延迟最高(23.1s),可能是因为它的 cache 未被利用(只有 114 tokens cached)。
| 题目 | MiniMax-M3 | DeepSeek v4-pro | 胜者 |
|---|---|---|---|
| Q1(简单检索) | 12.6s | 23.8s | M3(快 47%) |
| Q2(推理类) | 27.8s | 14.1s | v4-pro(快 49%) |
| Q3(列表检索) | 8.9s | 5.4s | v4-pro(快 39%) |
| Q4(字段查询) | 23.1s | 7.9s | v4-pro(快 66%) |
| 总计 | 72.4s | 51.2s | v4-pro(快 29%) |
| 指标 | MiniMax-M3 | DeepSeek v4-pro |
|---|---|---|
| 每轮 prompt tokens | ~171K | ~173K |
| 总 completion tokens | 1,991 | 1,342 |
| 平均回答长度 | ~498 tokens | ~336 tokens |
| cache 利用率 | 0.02% | 99.96%(Q2-Q4) |
| 推理 tokens | 包含在 completion | 910 reasoning tokens 另算 |
v4-pro 回答更简洁(~336 tokens vs ~498),且 reasoning tokens 独立计算不计入输出。M3 回答更详细但 token 消耗也更大。如果你更看重回答质量和结构化,M3 更好;如果追求性价比和速度,v4-pro 更优。
v4-pro 的 prompt cache 在连续发送相似 prompt 时几乎 100% 命中。数据:
| 轮次 | prompt tokens | cached | missed | 命中率 |
|---|---|---|---|---|
| Q1 | 172,890 | 0 | 172,890 | 0%(首轮) |
| Q2 | 172,869 | 172,800 | 69 | 99.96% |
| Q3 | 172,867 | 172,800 | 67 | 99.96% |
| Q4 | 172,883 | 172,800 | 83 | 99.96% |
对应延迟:Q1 23.8s → Q2-Q4 平均 9.1s。cache 命中后延迟降低 62%。
M3 的 cached_tokens 始终在 114-170,866 之间波动,且不稳定:Q1 114、Q2 170,866、Q3 170,866、Q4 114。Q4 又回到 114,说明 M3 的 cache 可能不是跨请求持久化的,或者 token 化方式导致 cache 不稳定。
这导致 M3 每次实际处理 170K tokens,而 v4-pro 从 Q2 开始只处理 67-83 个新 tokens。
| 维度 | MiniMax-M3 | DeepSeek v4-pro |
|---|---|---|
| 准确性 | ⭐⭐⭐⭐⭐ 全对 | ⭐⭐⭐⭐⭐ 全对 |
| 结构化 | ⭐⭐⭐⭐⭐ 表格+引用+层级清晰 | ⭐⭐⭐⭐ 列表清晰但较扁平 |
| 完整性 | ⭐⭐⭐⭐⭐ 补充了优先级、已完工对比等上下文 | ⭐⭐⭐⭐ 核心信息到位,偶尔少上下文 |
| 诚实度 | ⭐⭐⭐⭐⭐ 标注了推测部分 | ⭐⭐⭐⭐⭐ 精准只说材料有的 |
| 简洁度 | ⭐⭐⭐ 有时过于详细(Q2 额外推断较多) | ⭐⭐⭐⭐⭐ 信息密度高 |
| 中文质量 | ⭐⭐⭐⭐⭐ 自然流畅 | ⭐⭐⭐⭐⭐ 自然流畅 |
没有绝对的赢家。两个模型在 ~150K tokens 的长上下文检索上表现旗鼓相当:
选择建议:
| 模型 | 题目 | 延迟 | prompt tokens | completion tokens | cache hit | 评分 |
|---|---|---|---|---|---|---|
| M3 | Q1 | 12.6s | 171,002 | 264 | 114 | ✅ |
| M3 | Q2 | 27.8s | 170,979 | 889 | 170,866 | ✅ |
| M3 | Q3 | 8.9s | 170,980 | 215 | 170,866 | ✅ |
| M3 | Q4 | 23.1s | 170,995 | 623 | 114 | ✅ |
| v4-pro | Q1 | 23.8s | 172,890 | 226 | 0 | ✅ |
| v4-pro | Q2 | 14.1s | 172,869 | 586 | 172,800 | ✅ |
| v4-pro | Q3 | 5.4s | 172,867 | 209 | 172,800 | ✅ |
| v4-pro | Q4 | 7.9s | 172,883 | 321 | 172,800 | ✅ |