长上下文检索评测:MiniMax-M3 vs DeepSeek v4-pro

2026-06-01 · 专题调研
核心结论:两个模型在 ~150K tokens 真实材料上均表现优秀,所有 4 道题检索完全正确。DeepSeek v4-pro 在延迟和 token 效率上略优于 M3(总耗时 51.2s vs 72.4s),但 M3 的回答更详细、结构更好。

一、测试设计

材料结构

指标
文件大小585,380 字节(~571 KB)
估计 token 数~146K tokens(API 报告 ~171K prompt tokens)
总行数8,738 行
噪音数据150 组重复豆瓣书籍 JSON(每组 ~1K tok)
目标文档位置第 4,281 行(正中间),~8KB,绘本知识图谱规划文档
目标文档 token~2K tokens(占总材料 ~1.4%)

策略:前半 75 组噪音 → 目标文档 → 后半 75 组噪音。目标文档在材料中间的「深水区」,测试模型是否能穿透噪音定位到精确信息。

测试问题(4 道)

  1. Q1 简单检索:绘本目标文档中,总共有多少本书?done/pending/rejected 各多少?→ 精确数字 1891/1833/45/13
  2. Q2 Sprint 状态:S6 是做什么的?为什么没开始?→ S6=跨书关系发现+套系分析+审核界面,状态"未开始(最大gap)"
  3. Q3 P0 未完成项:列出 P0 优先级的未完成项 → ageRange unknown 补标注 + pending 45 本提炼
  4. Q4 精确字段:narrativeStructure / characterArchetype / characterTags / qualitySignals 标记为完成还是未完成 → 全部未完成

正确性评分标准

等级含义
✅ 完全正确数字/事实/出处全对
⚠️ 部分正确大致对但有 1-2 个错误
❌ 错误/回避编造、找错、说"不知道"

二、总览对比

MiniMax-M3
总耗时72.4s
平均延迟18.1s
最慢/最快27.8s / 8.9s
总 tokens685,947
Prompt tokens/次~171K
Prompt cache不稳定(114~170,866)
每题正确率4/4 ✅
回答风格详细、结构化
DeepSeek v4-pro
总耗时51.2s
平均延迟12.8s
最慢/最快23.8s / 5.4s
总 tokens692,851
Prompt tokens/次~173K
Prompt cache172.8K/次 (99.96% Q2-Q4)
每题正确率4/4 ✅
回答风格简洁、精准

三、逐题对比

Q1:绘本总数量统计 ✅ 双方全对

正确答案:总数 1891 本,done 1833,pending 45,rejected 13

MiniMax-M3 · 12.6s · 264 tokens

根据目标文档《绘本知识图谱 · 规划与现状对照》第三节"数据库现状
(实测 2026-05-05)"的记录:

- 总数:1891 本
- done(已完成):1833 本 ✅
- pending(待提炼):45 本 ⏳
- rejected(已拒绝):13 本 🚫

原文表述为:
> 总数 1891 本
> ├── done: 1833 ✅
> ├── pending: 45 ⏳ 待提炼
> └── rejected: 13 🚫

DeepSeek v4-pro · 23.8s · 226 tokens

根据文档中"三、数据库现状(实测 2026-05-05)"的记录:

- 总共有 1891 本书
- 已完成 (done):1833 本
- pending:45 本
- rejected:13 本

点评:双方完全正确。M3 引用了原始排版格式(树状图),更生动但 tokens 相近。v4-pro 第一轮无 cache 导致延迟较高(23.8s),而 M3 只用了 12.6s。

Q2:S6 做什么 + 为什么没开始 ✅ 双方正确

正确答案:S6 = 跨书关系发现 + 套系分析 + 审核界面;状态 = "未开始(最大gap)",材料未说明具体原因

MiniMax-M3 · 27.8s · 889 tokens

S6 是第 8 周的 Sprint,规划目标为"跨书关系发现;套系分析;审核界面"。

具体包括:BookRelation 表(5种关系)、Series 表、same_theme、
emotional_progression、character_archetype、style_lineage、
intertextual 关系发现、置信度过滤、reviewed 审核界面。

为什么没开始:材料中没有直接解释 S6 未启动的原因。但根据文档推断:
1. 被标注为"最大 gap"
2. 排在 P2 优先级(在 P0/P1 之后)
3. 前序 Sprint S4 也未完成
4. 底层能力已具备但上层未串联

总结:材料明确说明状态但未给出明确延期原因。

DeepSeek v4-pro · 14.1s · 586 tokens

S6 是做什么的:
S6(第8周)的规划目标是"跨书关系发现;套系分析;审核界面"。
具体包括 BookRelation 表、Series 表,以及 same_theme、
emotional_progression、character_archetype、style_lineage、
intertextual 等跨书关系发现。

为什么没开始:
文档中描述其实际状态为"❌ 未开始(最大gap)",在 P2 优先级。
但文档并未直接陈述其未能开始的具体原因。

点评:双方都正确回答了 S6 做什么。关于"为什么没开始",双方都诚实指出材料未明确说明原因,这是正确的。M3 额外做了合理推断(优先级排序、前序 Sprint 依赖),虽然不在材料中但标注为"推断"是诚实的。v4-pro 更简洁精准,没有过度推理。

Q3:P0 未完成项 ✅ 双方全对

正确答案:① ageRange unknown 补标注(970 本过半为空)② pending 45 本提炼

MiniMax-M3 · 8.9s · 215 tokens

P0 优先级的未完成项共有 2 项:

1. ageRange unknown 补标注 — 970本过半为空,影响用户体验
2. pending 45 本提炼 — 触发 batch-analyze 跑完

(以上为原文逐条引用,材料中未给出更多 P0 项。)

DeepSeek v4-pro · 5.4s · 209 tokens

P0(阻断数据质量的)优先级未完成项如下:

1. ageRange unknown 补标注 — 970本过半为空,影响用户体验
2. pending 45 本提炼 — 触发 batch-analyze 跑完

点评:完全一致,双方精准检索。v4-pro 延迟只有 5.4s(得益于 prompt cache),M3 是 8.9s。

Q4:字段标记状态 ✅ 双方全对

正确答案:4 个字段全部标记为"❌ schema有,AI未提取"(未完成)

MiniMax-M3 · 23.1s · 623 tokens

这四个字段在文档中均标记为未完成(未提取)。

字段                 状态
narrativeStructure   ❌ schema有,AI未提取
characterArchetype   ❌ schema有,AI未提取
characterTags        ❌ schema有,AI未提取
qualitySignals       ❌ schema有,AI未提取

优先级定位:属于 P2(深化知识的),在文档第五章也有提及。
对比已完成的字段(ageRange/origin/themeTags 等)均已完成填充。

DeepSeek v4-pro · 7.9s · 321 tokens

根据"4.2 标签体系"部分:

* narrativeStructure:❌ schema有,AI未提取
* characterArchetype:❌ schema有,AI未提取
* characterTags:❌ schema有,AI未提取
* qualitySignals:❌ schema有,AI未提取

因此,这四个字段在文档中均标记为未完成状态。

点评:完全正确。M3 补充了优先级和已完成的对比字段,信息量更大。v4-pro 更简洁但同样准确。注意 M3 的 Q4 延迟最高(23.1s),可能是因为它的 cache 未被利用(只有 114 tokens cached)。

四、延迟分析

题目MiniMax-M3DeepSeek v4-pro胜者
Q1(简单检索)12.6s23.8sM3(快 47%)
Q2(推理类)27.8s14.1sv4-pro(快 49%)
Q3(列表检索)8.9s5.4sv4-pro(快 39%)
Q4(字段查询)23.1s7.9sv4-pro(快 66%)
总计72.4s51.2sv4-pro(快 29%)
关键发现:DeepSeek v4-pro 的 prompt cache 非常强大。首轮无 cache(23.8s),但从 Q2 开始命中 cache(172.8K/172.9K = 99.96%),延迟骤降至 5.4-14.1s。M3 的 cache 利用率极低(114 tokens,本质无 cache),每轮都需重新处理完整上下文,导致 Q2/Q4 延迟较高。

五、Token 效率

指标MiniMax-M3DeepSeek v4-pro
每轮 prompt tokens~171K~173K
总 completion tokens1,9911,342
平均回答长度~498 tokens~336 tokens
cache 利用率0.02%99.96%(Q2-Q4)
推理 tokens包含在 completion910 reasoning tokens 另算

v4-pro 回答更简洁(~336 tokens vs ~498),且 reasoning tokens 独立计算不计入输出。M3 回答更详细但 token 消耗也更大。如果你更看重回答质量和结构化,M3 更好;如果追求性价比和速度,v4-pro 更优。

六、Prompt Cache 深度对比

为什么 v4-pro 的 cache 这么强?

v4-pro 的 prompt cache 在连续发送相似 prompt 时几乎 100% 命中。数据:

轮次prompt tokenscachedmissed命中率
Q1172,8900172,8900%(首轮)
Q2172,869172,8006999.96%
Q3172,867172,8006799.96%
Q4172,883172,8008399.96%

对应延迟:Q1 23.8s → Q2-Q4 平均 9.1s。cache 命中后延迟降低 62%

M3 的 cache 为什么没起作用?

M3 的 cached_tokens 始终在 114-170,866 之间波动,且不稳定:Q1 114、Q2 170,866、Q3 170,866、Q4 114。Q4 又回到 114,说明 M3 的 cache 可能不是跨请求持久化的,或者 token 化方式导致 cache 不稳定。

这导致 M3 每次实际处理 170K tokens,而 v4-pro 从 Q2 开始只处理 67-83 个新 tokens。

七、回答质量对比

维度MiniMax-M3DeepSeek v4-pro
准确性⭐⭐⭐⭐⭐ 全对⭐⭐⭐⭐⭐ 全对
结构化⭐⭐⭐⭐⭐ 表格+引用+层级清晰⭐⭐⭐⭐ 列表清晰但较扁平
完整性⭐⭐⭐⭐⭐ 补充了优先级、已完工对比等上下文⭐⭐⭐⭐ 核心信息到位,偶尔少上下文
诚实度⭐⭐⭐⭐⭐ 标注了推测部分⭐⭐⭐⭐⭐ 精准只说材料有的
简洁度⭐⭐⭐ 有时过于详细(Q2 额外推断较多)⭐⭐⭐⭐⭐ 信息密度高
中文质量⭐⭐⭐⭐⭐ 自然流畅⭐⭐⭐⭐⭐ 自然流畅

八、结论

没有绝对的赢家。两个模型在 ~150K tokens 的长上下文检索上表现旗鼓相当:

选择建议:

测试局限

九、原始数据

模型题目延迟prompt tokenscompletion tokenscache hit评分
M3Q112.6s171,002264114
M3Q227.8s170,979889170,866
M3Q38.9s170,980215170,866
M3Q423.1s170,995623114
v4-proQ123.8s172,8902260
v4-proQ214.1s172,869586172,800
v4-proQ35.4s172,867209172,800
v4-proQ47.9s172,883321172,800