长上下文检索评测：MiniMax-M3 vs DeepSeek v4-pro

2026-06-01 · 专题调研

  核心结论：两个模型在 ~150K tokens 真实材料上均表现优秀，所有 4 道题检索完全正确。DeepSeek v4-pro 在延迟和 token 效率上略优于 M3（总耗时 51.2s vs 72.4s），但 M3 的回答更详细、结构更好。

一、测试设计

材料结构

指标	值
文件大小	585,380 字节（~571 KB）
估计 token 数	~146K tokens（API 报告 ~171K prompt tokens）
总行数	8,738 行
噪音数据	150 组重复豆瓣书籍 JSON（每组 ~1K tok）
目标文档位置	第 4,281 行（正中间），~8KB，绘本知识图谱规划文档
目标文档 token	~2K tokens（占总材料 ~1.4%）

策略：前半 75 组噪音 → 目标文档 → 后半 75 组噪音。目标文档在材料中间的「深水区」，测试模型是否能穿透噪音定位到精确信息。

测试问题（4 道）

Q1 简单检索：绘本目标文档中，总共有多少本书？done/pending/rejected 各多少？→ 精确数字 1891/1833/45/13
Q2 Sprint 状态：S6 是做什么的？为什么没开始？→ S6=跨书关系发现+套系分析+审核界面，状态"未开始（最大gap）"
Q3 P0 未完成项：列出 P0 优先级的未完成项 → ageRange unknown 补标注 + pending 45 本提炼
Q4 精确字段：narrativeStructure / characterArchetype / characterTags / qualitySignals 标记为完成还是未完成 → 全部未完成

正确性评分标准

等级	含义
✅ 完全正确	数字/事实/出处全对
⚠️ 部分正确	大致对但有 1-2 个错误
❌ 错误/回避	编造、找错、说"不知道"

二、总览对比

MiniMax-M3

总耗时72.4s

平均延迟18.1s

最慢/最快27.8s / 8.9s

总 tokens685,947

Prompt tokens/次~171K

Prompt cache不稳定（114~170,866）

每题正确率4/4 ✅

回答风格详细、结构化

DeepSeek v4-pro

总耗时51.2s

平均延迟12.8s

最慢/最快23.8s / 5.4s

总 tokens692,851

Prompt tokens/次~173K

Prompt cache172.8K/次 (99.96% Q2-Q4)

每题正确率4/4 ✅

回答风格简洁、精准

三、逐题对比

Q1：绘本总数量统计 ✅ 双方全对

正确答案：总数 1891 本，done 1833，pending 45，rejected 13

MiniMax-M3 · 12.6s · 264 tokens

根据目标文档《绘本知识图谱 · 规划与现状对照》第三节"数据库现状
（实测 2026-05-05）"的记录：

- 总数：1891 本
- done（已完成）：1833 本 ✅
- pending（待提炼）：45 本 ⏳
- rejected（已拒绝）：13 本 🚫

原文表述为：
> 总数 1891 本
> ├── done: 1833 ✅
> ├── pending: 45 ⏳ 待提炼
> └── rejected: 13 🚫

DeepSeek v4-pro · 23.8s · 226 tokens

根据文档中"三、数据库现状（实测 2026-05-05）"的记录：

- 总共有 1891 本书
- 已完成 (done)：1833 本
- pending：45 本
- rejected：13 本

点评：双方完全正确。M3 引用了原始排版格式（树状图），更生动但 tokens 相近。v4-pro 第一轮无 cache 导致延迟较高（23.8s），而 M3 只用了 12.6s。

Q2：S6 做什么 + 为什么没开始 ✅ 双方正确

正确答案：S6 = 跨书关系发现 + 套系分析 + 审核界面；状态 = "未开始（最大gap）"，材料未说明具体原因

MiniMax-M3 · 27.8s · 889 tokens

S6 是第 8 周的 Sprint，规划目标为"跨书关系发现；套系分析；审核界面"。

具体包括：BookRelation 表（5种关系）、Series 表、same_theme、
emotional_progression、character_archetype、style_lineage、
intertextual 关系发现、置信度过滤、reviewed 审核界面。

为什么没开始：材料中没有直接解释 S6 未启动的原因。但根据文档推断：
1. 被标注为"最大 gap"
2. 排在 P2 优先级（在 P0/P1 之后）
3. 前序 Sprint S4 也未完成
4. 底层能力已具备但上层未串联

总结：材料明确说明状态但未给出明确延期原因。

DeepSeek v4-pro · 14.1s · 586 tokens

S6 是做什么的：
S6（第8周）的规划目标是"跨书关系发现；套系分析；审核界面"。
具体包括 BookRelation 表、Series 表，以及 same_theme、
emotional_progression、character_archetype、style_lineage、
intertextual 等跨书关系发现。

为什么没开始：
文档中描述其实际状态为"❌ 未开始（最大gap）"，在 P2 优先级。
但文档并未直接陈述其未能开始的具体原因。

点评：双方都正确回答了 S6 做什么。关于"为什么没开始"，双方都诚实指出材料未明确说明原因，这是正确的。M3 额外做了合理推断（优先级排序、前序 Sprint 依赖），虽然不在材料中但标注为"推断"是诚实的。v4-pro 更简洁精准，没有过度推理。

Q3：P0 未完成项 ✅ 双方全对

正确答案：① ageRange unknown 补标注（970 本过半为空）② pending 45 本提炼

MiniMax-M3 · 8.9s · 215 tokens

P0 优先级的未完成项共有 2 项：

1. ageRange unknown 补标注 — 970本过半为空，影响用户体验
2. pending 45 本提炼 — 触发 batch-analyze 跑完

（以上为原文逐条引用，材料中未给出更多 P0 项。）

DeepSeek v4-pro · 5.4s · 209 tokens

P0（阻断数据质量的）优先级未完成项如下：

1. ageRange unknown 补标注 — 970本过半为空，影响用户体验
2. pending 45 本提炼 — 触发 batch-analyze 跑完

点评：完全一致，双方精准检索。v4-pro 延迟只有 5.4s（得益于 prompt cache），M3 是 8.9s。

Q4：字段标记状态 ✅ 双方全对

正确答案：4 个字段全部标记为"❌ schema有，AI未提取"（未完成）

MiniMax-M3 · 23.1s · 623 tokens

这四个字段在文档中均标记为未完成（未提取）。

字段                 状态
narrativeStructure   ❌ schema有，AI未提取
characterArchetype   ❌ schema有，AI未提取
characterTags        ❌ schema有，AI未提取
qualitySignals       ❌ schema有，AI未提取

优先级定位：属于 P2（深化知识的），在文档第五章也有提及。
对比已完成的字段（ageRange/origin/themeTags 等）均已完成填充。

DeepSeek v4-pro · 7.9s · 321 tokens

根据"4.2 标签体系"部分：

* narrativeStructure：❌ schema有，AI未提取
* characterArchetype：❌ schema有，AI未提取
* characterTags：❌ schema有，AI未提取
* qualitySignals：❌ schema有，AI未提取

因此，这四个字段在文档中均标记为未完成状态。

点评：完全正确。M3 补充了优先级和已完成的对比字段，信息量更大。v4-pro 更简洁但同样准确。注意 M3 的 Q4 延迟最高（23.1s），可能是因为它的 cache 未被利用（只有 114 tokens cached）。

四、延迟分析

题目	MiniMax-M3	DeepSeek v4-pro	胜者
Q1（简单检索）	12.6s	23.8s	M3（快 47%）
Q2（推理类）	27.8s	14.1s	v4-pro（快 49%）
Q3（列表检索）	8.9s	5.4s	v4-pro（快 39%）
Q4（字段查询）	23.1s	7.9s	v4-pro（快 66%）
总计	72.4s	51.2s	v4-pro（快 29%）

  关键发现：DeepSeek v4-pro 的 prompt cache 非常强大。首轮无 cache（23.8s），但从 Q2 开始命中 cache（172.8K/172.9K = 99.96%），延迟骤降至 5.4-14.1s。M3 的 cache 利用率极低（114 tokens，本质无 cache），每轮都需重新处理完整上下文，导致 Q2/Q4 延迟较高。

五、Token 效率

指标	MiniMax-M3	DeepSeek v4-pro
每轮 prompt tokens	~171K	~173K
总 completion tokens	1,991	1,342
平均回答长度	~498 tokens	~336 tokens
cache 利用率	0.02%	99.96%（Q2-Q4）
推理 tokens	包含在 completion	910 reasoning tokens 另算

v4-pro 回答更简洁（~336 tokens vs ~498），且 reasoning tokens 独立计算不计入输出。M3 回答更详细但 token 消耗也更大。如果你更看重回答质量和结构化，M3 更好；如果追求性价比和速度，v4-pro 更优。

六、Prompt Cache 深度对比

为什么 v4-pro 的 cache 这么强？

v4-pro 的 prompt cache 在连续发送相似 prompt 时几乎 100% 命中。数据：

轮次	prompt tokens	cached	missed	命中率
Q1	172,890	0	172,890	0%（首轮）
Q2	172,869	172,800	69	99.96%
Q3	172,867	172,800	67	99.96%
Q4	172,883	172,800	83	99.96%

对应延迟：Q1 23.8s → Q2-Q4 平均 9.1s。cache 命中后延迟降低 62%。

M3 的 cache 为什么没起作用？

M3 的 cached_tokens 始终在 114-170,866 之间波动，且不稳定：Q1 114、Q2 170,866、Q3 170,866、Q4 114。Q4 又回到 114，说明 M3 的 cache 可能不是跨请求持久化的，或者 token 化方式导致 cache 不稳定。

这导致 M3 每次实际处理 170K tokens，而 v4-pro 从 Q2 开始只处理 67-83 个新 tokens。

七、回答质量对比

维度	MiniMax-M3	DeepSeek v4-pro
准确性	⭐⭐⭐⭐⭐ 全对	⭐⭐⭐⭐⭐ 全对
结构化	⭐⭐⭐⭐⭐ 表格+引用+层级清晰	⭐⭐⭐⭐ 列表清晰但较扁平
完整性	⭐⭐⭐⭐⭐ 补充了优先级、已完工对比等上下文	⭐⭐⭐⭐ 核心信息到位，偶尔少上下文
诚实度	⭐⭐⭐⭐⭐ 标注了推测部分	⭐⭐⭐⭐⭐ 精准只说材料有的
简洁度	⭐⭐⭐ 有时过于详细（Q2 额外推断较多）	⭐⭐⭐⭐⭐ 信息密度高
中文质量	⭐⭐⭐⭐⭐ 自然流畅	⭐⭐⭐⭐⭐ 自然流畅

八、结论

没有绝对的赢家。两个模型在 ~150K tokens 的长上下文检索上表现旗鼓相当：

准确度：持平。4/4 全对，无一错误或回避。目标文档深深嵌入噪音中（占比仅 1.4%），双方都能精准定位。
延迟：v4-pro 完胜。得益于优秀的 prompt cache（99.96% 命中率），后续轮次延迟仅 M3 的 1/3。
Token 效率：v4-pro 更优。回答更简洁（336 vs 498 avg），且 cache 大幅减少重复处理。
回答质量：M3 略优。更结构化、信息更完整、上下文引用更丰富。适合需要深度分析的报告场景。

选择建议：

追求性价比/速度（批量处理、API 调用）→ DeepSeek v4-pro
追求回答质量/细节（单次深度分析）→ MiniMax-M3
多轮对话相同长材料 → v4-pro 的 cache 优势显著
单次精准查询 → 两者都可以，M3 首轮延迟更低

测试局限

4 个问题都是精确检索型（数字、字段名匹配），未测试推理密集型任务
噪音数据是高度重复的 JSON（同一本书 × 150），真实场景噪音更分散
材料 ~150K tokens，未触及两个模型的真实上限（M3: 1M, v4pro: 1M）
单次测试，未做统计显著性分析（多次重复可能有波动）
v4-pro 的 reasoning tokens 额外消耗但未计入 completion quality 评估

九、原始数据

模型	题目	延迟	prompt tokens	completion tokens	cache hit	评分
M3	Q1	12.6s	171,002	264	114	✅
M3	Q2	27.8s	170,979	889	170,866	✅
M3	Q3	8.9s	170,980	215	170,866	✅
M3	Q4	23.1s	170,995	623	114	✅
v4-pro	Q1	23.8s	172,890	226	0	✅
v4-pro	Q2	14.1s	172,869	586	172,800	✅
v4-pro	Q3	5.4s	172,867	209	172,800	✅
v4-pro	Q4	7.9s	172,883	321	172,800	✅