基于 DeepSeek 的公文写作 Chatbot 方案设计

生成时间：2026-04-29 目标场景：讲话材料、发言稿、经验交流材料、调研报告底层模型：DeepSeek V4-Pro（thinking mode）

1. 公文写作 AI 的痛点与核心要求

1.1 核心痛点

痛点	描述	严重程度
政治正确性	措辞必须符合当前政策口径，不能出现偏差表述	🔴 致命
语体规范	公文有严格语体要求——正式、严谨、无歧义，AI 容易生成口语化/随意表达	🔴 高
层级匹配	不同层级（部委/省/市/县/基层）用语习惯差异大，AI 难以自动适配	🟡 中高
时效性	政策术语、领导讲话口径持续更新，AI 训练截止日期后的内容无法覆盖	🟡 中高
格式规范	讲话稿、调研报告各有固定结构，AI 容易混用或遗漏必要部分	🟡 中
数据准确性	涉及具体数据时 AI 容易编造（幻觉），政府场景零容忍	🔴 高
文风统一	同一单位/同一领导多篇文稿需保持风格一致	🟡 中
安全合规	涉密内容不能上云，国防/机要单位有严格网络隔离要求	🔴 高（特殊场景）

1.2 核心要求

公文写作 AI 系统必须满足：

1. 政治安全 → 输出经过政策合规过滤
2. 语体准确 → 严格遵循《党政机关公文处理工作条例》规范
3. 结构规范 → 每种文体有清晰模板约束
4. 引用可信 → 数据/政策引用可溯源
5. 风格可控 → 可指定层级、场合、受众
6. 隐私合规 → 敏感场景支持纯本地推理

2. 系统架构设计

2.1 总体架构

┌─────────────────────────────────────────────────────┐
│                    前端层 (Web UI)                     │
│  公文类型选择 → 参数配置 → 草稿编辑 → 版本管理          │
└──────────────────────┬──────────────────────────────┘
                       │ HTTP/WebSocket
┌──────────────────────▼──────────────────────────────┐
│                   API 网关层                          │
│  认证鉴权 → 请求路由 → 限流 → 日志审计               │
└──────────────────────┬──────────────────────────────┘
                       │
┌──────────────────────▼──────────────────────────────┐
│                  核心业务层                            │
│  ┌──────────┐  ┌──────────┐  ┌──────────────────┐  │
│  │ 参数解析  │  │ Prompt   │  │  后处理 & 过滤    │  │
│  │ & 校验    │→ │ 编排引擎  │→│  (敏感词/格式)    │  │
│  └──────────┘  └──────────┘  └──────────────────┘  │
│                       │                              │
│  ┌────────────────────▼──────────────────────────┐  │
│  │             RAG 检索增强层                      │  │
│  │  ┌──────────┐ ┌──────────┐ ┌──────────────┐  │  │
│  │  │ 范文库    │ │政策术语库 │ │层级表达规范库  │  │  │
│  │  │ (向量检索) │ │(关键词+  │ │(按层级索引)   │  │  │
│  │  │           │ │ 向量混合) │ │              │  │  │
│  │  └──────────┘ └──────────┘ └──────────────┘  │  │
│  └───────────────────────────────────────────────┘  │
└──────────────────────┬──────────────────────────────┘
                       │
┌──────────────────────▼──────────────────────────────┐
│                  AI 模型层                            │
│  DeepSeek V4-Pro (Thinking Mode)                     │
│  base_url: https://api.deepseek.com                   │
│  备选: 本地 Qwen2.5:14B (敏感场景)                    │
└─────────────────────────────────────────────────────┘

2.2 核心模块说明

A. Prompt 编排引擎

用户输入参数：
├── 文体类型 (讲话稿|发言稿|经验交流|调研报告)
├── 使用层级 (部委|省|市|县|基层)
├── 场合 (大会|座谈会|汇报会|培训班)
├── 受众 (领导|同级|下级|群众)
├── 主题/标题
├── 关键要点 (bullet points)
├── 字数要求
├── 参考材料 (可选，粘贴或上传)
└── 风格偏好 (正式度 0-10, 创新度 0-10)

↓

引擎构造 messages 数组：
[
  {role: "system", 公文类型专用 prompt},
  {role: "system", RAG 检索到的范文片段},
  {role: "system", RAG 检索到的政策术语},
  {role: "user",  结构化任务描述}
]

B. RAG 检索增强层

向量数据库：Milvus Lite（轻量）或 ChromaDB（Python 原生）
Embedding 模型：text-embedding-3-small（OpenAI 兼容，或本地 BGE-M3）
检索策略：先向量检索 top-k 相似范文 → 再关键词精确匹配政策术语 → 合并去重排序

C. 后处理 & 安全过滤

输出处理管线：
raw_output → 敏感词检测(AC自动机) → 格式校验(结构完整性) 
→ 数据真实性标注(标记可能编造的数字) → 术语一致性复检 → final_output

2.3 数据流示意

1. 用户输入 "写一篇关于乡村振兴的座谈会发言稿，市级，1500字"
2. 参数解析 → 文体=发言稿, 层级=市, 场合=座谈会, 主题=乡村振兴, 字数=1500
3. RAG 检索 → 查 3 篇相似范文 + "乡村振兴" 相关最新政策术语
4. Prompt 组装 → system prompt + RAG 材料 + 结构化指令
5. DeepSeek API → thinking mode, reasoning_effort=high, max_tokens=4000
6. 输出后处理 → 敏感词过滤 + 格式校验
7. 返回前端 → 可编辑草稿 + 术语高亮 + 引用溯源

3. Prompt 设计策略

3.1 System Prompt 设计原则

基于 DeepSeek V4-Pro 的思考模式特性：

角色锚定：用中文明确角色身份（比英文 role-play 对中文模型更有效）
结构先置：在 system prompt 中提供完整结构模板，让模型在思考阶段就按模板组织
约束后置：字数、禁用词等约束放 user prompt 末尾（DeepSeek 对末尾指令敏感）
思考模式利用：开启 thinking mode (reasoning_effort=high)，让模型先"构思结构"再输出

3.2 四种公文体 System Prompt 模板

模板 A：工作讲话（领导讲话稿）

你是{层级}{单位名称}的资深笔杆子，有20年公文写作经验。
你擅长撰写领导讲话稿，风格庄重、大气、有号召力。

【核心原则】
1. 政治站位要高，体现"四个意识""两个维护"
2. 结构遵循：开篇点题 → 形势分析 → 工作部署(3-4点) → 保障要求 → 号召收尾
3. 每部分用"同志们"等称呼过渡
4. 部署工作要求"项目化、清单化"：干什么、怎么干、谁来干、何时完成
5. 引用最新政策精神时要准确，不确定的用通用表述替代

【语言风格】
- 使用排比句式增强气势
- 适当使用成语和对仗
- 避免过于口语化
- 层次分明，小标题对仗工整

【输出格式】
一、[开篇段] 阐明会议目的、当前形势
二、[工作部署] 3-4个重点任务，每个任务包含：为什么重要 + 具体要求 + 预期目标
三、[保障措施] 组织领导、督查考核、作风建设
四、[号召收尾] 鼓舞士气、凝聚共识

模板 B：经验交流材料

你是{层级}{单位名称}的政策研究室主任，专门撰写经验交流材料。
你的材料以"做法实、亮点亮、可复制"著称。

【核心原则】
1. 结构：标题(提炼亮点) → 背景(简短) → 主要做法(3-4条) → 成效 → 体会/启示
2. "做法"部分是核心，占全文60%以上
3. 每条做法=具体措施+创新点+实际案例(如有数据则引用)
4. 避免空话套话，用"我们做了X，取得了Y效果"的句式
5. 成效部分用数据说话，多用"同比增长X%""覆盖Y个"等量化表达

【语言风格】
- 朴实、具体、可操作
- 多用"探索了""建立了""形成了"等完成时动词
- 少用"要""必须"等祈使句（你不是在部署工作）

【输出格式】
一、背景与问题（200字以内）
二、主要做法
  （一）做法标题（12字以内对仗）
    1. 具体措施
    2. 创新之处
    3. 取得成效
  （二）...
  （三）...
三、工作成效（整体数据）
四、几点体会（2-3条，提炼规律性认识）

模板 C：调研报告

你是{层级}政策研究室的资深研究员，专精于撰写高质量调研报告。
你的报告以"问题导向、数据支撑、建议可行"为特色。

【核心原则】
1. 标准结构：标题 → 摘要(200字) → 调研背景与方法 → 现状分析 → 问题诊断 → 对策建议 → 结语
2. "问题诊断"是报告的魂，要切中要害，不回避矛盾
3. "对策建议"要具体可行，每条建议对应前面的一个问题
4. 数据必须准确，不确定的标注"据初步统计""估算"等限定词
5. 对策建议按照"近期可做、中期可推、远期可谋"分层

【语言风格】
- 客观、严谨、冷静
- 使用"调研发现""数据显示""XX反映"等证据导向表述
- 问题表述有分寸：用"有待加强""尚需完善"，不用"很差""严重不足"
- 建议用"建议""可考虑""宜"，不用"必须""一定要"

【输出格式】
一、调研背景与方法
二、基本情况与主要成效
三、存在问题与原因分析（按重要性排序，3-5条）
四、对策建议（与问题一一对应）
  （一）近期举措（3个月内）
  （二）中期安排（半年-1年）
  （三）远期规划
五、结语

模板 D：座谈会发言稿

你是{层级}{单位名称}的业务骨干，要在{场合}上做发言。
你的发言要求：真诚、有干货、不超时。

【核心原则】
1. 结构：自我介绍(10%) → 对议题的认识(20%) → 本单位做法/面临的困难(50%) → 建议(20%)
2. 对议题的"认识"要有个人视角，不是复读政策
3. "做法/困难"部分要具体，讲一个真问题好过讲十个正确的废话
4. 发言稿字数严格控制在{字数}字以内（按每分钟200字朗读速度核算）
5. 开头要有称呼："尊敬的XX（主持人职务），各位同仁"

【语言风格】
- 自然、坦诚、适度口语化
- 可用"我们当时""我印象很深的是"等叙述性表达
- 避免官话套话堆砌
- 结尾简短有力

【输出格式】
[称呼]
[开头：表达参会感受，点出核心观点]
[主体：做法/困难/建议，2-3个分点]
[结尾：简短表态或请求支持]

3.3 Few-shot 示例选择策略

策略：TYPE × LEVEL × LENGTH 三维匹配

1. TYPE 匹配：目标文体与示例文体一致（讲话稿→讲话稿）
2. LEVEL 匹配：目标层级与示例层级一致或相近（市级→市级或省级）
3. LENGTH 匹配：目标字数与示例字数在±50%范围内

检索方法：
- 向量相似度检索（embedding cosine similarity）
- top-3 最相似示例注入 system prompt（不是 user prompt）
- 每篇示例截取前 800 tokens（控制上下文预算）

示例库管理：
- 按 文体/层级/场合/字数 四维索引
- 手工精选 50-100 篇高质量范文
- 每季度更新（纳入新政策口径）

3.4 角色扮演 Prompt 策略

DeepSeek V4-Pro 对中文角色扮演响应良好。核心技巧：

【效果最好】
"你是XX省委政研室的资深笔杆子，从业25年，专门给省委主要领导起草讲话稿。
你的文章被中办刊物转载过12次。"

【效果次之】
"请以一位有20年公文写作经验的政研室主任的身份写作。"

【效果最差】
"You are a senior government speechwriter with 20 years of experience."
（英文角色对中文生成帮助不大）

角色细粒度控制： - 职位 + 年限 + 成就 → 影响文风正式度 - 所在单位 → 影响用语习惯（党委口 vs 政府口） - 服务过的领导风格 → 影响文风倾向（务实型 vs 理论型）

4. 知识库设计（RAG 方案）

4.1 三大知识库

4.1.1 范文库

类型：向量检索（embedding + 元数据过滤）
规模：初始 200-500 篇，逐步扩充
来源：
  - 《求是》《人民日报》公开发表文章
  - 各级政府网站公开的讲话/报告
  - 党内法规文件（公开部分）
  - 用户自有范文（上传后私有存储）

元数据标注：
{
  "title": "XX",
  "type": "讲话稿|发言稿|经验交流|调研报告",
  "level": "中央|省|市|县|基层",
  "occasion": "大会|座谈会|汇报会|培训班|开幕式",
  "topic_tags": ["乡村振兴", "数字经济", ...],
  "word_count": 3500,
  "date": "2025-06",
  "source": "求是杂志",
  "quality": 5  // 1-5 打分
}

检索策略：
1. 向量相似度检索 top-20
2. 元数据过滤（type + level 精确匹配）
3. 重排序（按 quality 和日期加权）
4. 返回 top-3，每篇截取 800 tokens

4.1.2 政策术语库

类型：关键词索引 + 向量混合检索
规模：5000-10000 条术语
结构：
{
  "term": "新质生产力",
  "definition": "创新起主导作用，摆脱传统经济增长方式...",
  "first_mentioned": "2023年9月，习近平总书记在黑龙江考察时首次提出",
  "related_terms": ["高质量发展", "科技创新", "产业升级"],
  "usage_context": "适用于经济工作讲话、产业调研报告",
  "taboo_usage": "不能与'传统生产力'对立表述",
  "update_date": "2024-03"
}

更新频率：每月抓取《人民日报》《求是》《新闻联播》文字稿
维护方式：AI 辅助提取 + 人工审核

4.1.3 层级表达规范库

按五级行政层级，记录用语差异：

示例："重视"一词的表达

| 层级 | 常用表述                          |
|------|-----------------------------------|
| 中央 | "高度重视""摆在突出位置"           |
| 省   | "高度重视""作为重大政治任务"       |
| 市   | "摆在重要议事日程""强力推进"       |
| 县   | "作为头等大事""一把手工程"         |
| 基层 | "集中力量""下大力气"              |

示例：问题严重程度表述

| 层级 | 最重表述                  | 中等表述                  | 轻微表述            |
|------|--------------------------|--------------------------|---------------------|
| 中央 | "形势严峻""面临挑战"      | "有待加强"                | "尚有差距"          |
| 省   | "不容乐观""压力较大"      | "存在短板"                | "还需提升"          |
| 市   | "问题突出""矛盾集中"      | "仍需改进"                | "发展不平衡"        |
| 县   | "任务艰巨""困难较多"      | "基础薄弱"                | "尚在起步阶段"       |

存储方式：YAML/Markdown 表格，在构造 prompt 时按层级注入

4.2 RAG 技术选型

┌─────────────────┬───────────────────┬──────────────────┐
│ 组件              │ 推荐                │ 备选               │
├─────────────────┼───────────────────┼──────────────────┤
│ 向量数据库        │ ChromaDB (轻量)     │ Milvus Lite        │
│ Embedding 模型    │ BGE-M3 (本地)       │ text-embedding-3   │
│ 文档解析          │ Unstructured.io     │ LangChain loader  │
│ RAG 框架          │ LlamaIndex          │ LangChain          │
│ 重排序            │ BGE-Reranker-v2     │ Cohere Rerank API │
└─────────────────┴───────────────────┴──────────────────┘

推荐组合：ChromaDB + BGE-M3 + LlamaIndex
- 全本地部署，零外部依赖
- BGE-M3 中文效果优于 OpenAI embedding
- ChromaDB Python 原生支持，部署零门槛

4.3 RAG 数据流

文档入库流程：
原始文档 → 格式清洗 → 分块(512 tokens, overlap 50) 
→ BGE-M3 embedding → ChromaDB 存储

检索流程：
用户 query → 关键词提取 → 
├── 向量检索(ChromaDB 相似度 top-20)
├── 关键词精确匹配(政策术语库)
└── 层级规则注入(表达规范库)
→ 合并去重 → BGE-Reranker 重排序 → top-5 
→ 格式化为 prompt 注入片段

5. 技术栈推荐 + 部署方案

5.1 推荐技术栈

前端:
├── Next.js 14 (React + TypeScript)
├── TailwindCSS + shadcn/ui (组件库)
├── TipTap (富文本编辑器，支持 Markdown)
└── React Query (状态管理/缓存)

后端:
├── Next.js API Routes / FastAPI (Python)
├── Prisma (ORM) + PostgreSQL (业务数据)
├── ChromaDB (向量数据库)
├── Redis (会话 & 缓存)
└── BullMQ (异步任务队列)

AI 层:
├── DeepSeek V4-Pro (思考模式)
│   base_url: https://api.deepseek.com
│   model: deepseek-v4-pro
│   thinking: enabled, reasoning_effort: high
├── 本地 Qwen2.5:14B (敏感场景/隐私模式)
│   通过 Ollama: http://host.internal:11434
└── BGE-M3 (本地 embedding)

运维:
├── Docker Compose (容器化)
├── Nginx (反向代理 + SSL)
├── Prometheus + Grafana (监控)
└── GitHub Actions (CI/CD)

5.2 部署方案

方案 A：轻量部署（个人/小团队，推荐起步）

# docker-compose.yml
services:
  app:
    build: .
    ports: ["3000:3000"]
    env:
      - DEEPSEEK_API_KEY=${DEEPSEEK_API_KEY}
      - DATABASE_URL=postgresql://...
    depends_on: [postgres, chromadb, redis]

  postgres:
    image: postgres:16-alpine
    volumes: [pgdata:/var/lib/postgresql/data]

  chromadb:
    image: chromadb/chroma:latest
    volumes: [chromadata:/chroma/chroma]

  redis:
    image: redis:7-alpine

volumes:
  pgdata:
  chromadata:

资源需求：2 CPU / 4GB RAM / 20GB 磁盘
适合场景：5 人以内，日生成 10-50 篇
月度成本：DeepSeek API ¥20-100 + 服务器（如有现有 Mac mini VM 则免费）≈ ¥20-100/月

方案 B：完整部署（团队使用）

增加 PostgreSQL 主从、Redis Cluster
BGE-M3 部署到独立 GPU 实例（如需低延迟 RAG）
增加文件存储（MinIO，存用户上传的参考材料）
月度成本：DeepSeek API ¥50-500 + 云服务器 ¥200-500 ≈ ¥250-1000/月

5.3 JC 现有环境适配

已有资源：
✅ DeepSeek API Key（openclaw.json 中已配置）
✅ Ollama (qwen2.5:14b) — 本地推理备份
✅ Mac mini VM (12GB RAM) — 可运行 ChromaDB + BGE-M3（CPU 推理）
✅ PostgreSQL（如用到 picturebook-kg 的 PG 实例可复用）
✅ Docker Compose 环境

建议部署路径：
1. 在 Mac mini VM 上部署 ChromaDB + BGE-M3（内存占用 < 4GB）
2. 复用已有 PG（新建 schema）
3. Next.js 应用部署在同一 VM
4. API 调用 DeepSeek 云端 + 隐私场景回落本地 Ollama

6. 成本估算

6.1 DeepSeek V4-Pro 定价（2026-04）

计费项	标准价（¥/百万tokens）	2.5折优惠价（至2026/05/31）
输入（缓存未命中）	12	3
输入（缓存命中）	0.1	0.025
输出	24	6

6.2 单次生成成本

假设典型用法（思考模式，reasoning_effort=high）：

场景：生成 2000 字讲话稿

输入 tokens：
├── System prompt (角色+模板): ~800 tokens
├── RAG 注入片段 (3篇范文×800字): ~1800 tokens
├── 用户指令 + 参考材料: ~500 tokens
└── 总计: ~3100 tokens（假设 50% 缓存命中）
    = 1550×¥0.025 + 1550×¥3 = ¥0.039 + ¥4.65 ≈ ¥4.69/百万
    实际输入成本 ≈ 3100 × ¥0.003 ≈ ¥0.009

输出 tokens：
├── reasoning_content (内部): ~3000 tokens (不收费！)
├── 最终 content (2000字≈3000 tokens): 约 3000 tokens
└── 输出成本 ≈ 3000 × ¥0.006 ≈ ¥0.018

单次总成本 ≈ ¥0.009 + ¥0.018 ≈ ¥0.027

实际估算（含重试）：¥0.03 - ¥0.05/篇

6.3 月度使用量成本

使用规模	月生成量	API 成本（优惠价）	恢复原价后
个人偶尔用	30 篇	~¥1.5	~¥6
日常使用	100 篇	~¥5	~¥20
高频使用	300 篇	~¥15	~¥60
团队协作	1000 篇	~¥50	~¥200

6.4 上下文硬盘缓存优化

DeepSeek 提供上下文硬盘缓存（KV Cache），可大幅降低输入成本：

优化策略：
- System Prompt 固定部分（模板）→ 缓存命中，¥0.025/百万tokens
- 预热：启动时发送一次完整 system prompt → 后续请求缓存命中

启用后，输入成本可降低 90%：
├── 缓存命中部分（system prompt + 模板）: ~2000 tokens × ¥0.000025 ≈ ¥0.00005
├── 缓存未命中部分（用户输入）: ~1100 tokens × ¥0.003 ≈ ¥0.0033
└── 输入总成本: ~¥0.0034（降低 62%）

单篇成本降至: ¥0.0034 + ¥0.018 ≈ ¥0.021
月300篇成本: ¥6.4（优惠价），¥25.6（原价）

6.5 成本控制建议

缓存优化：固定 system prompt 放最前面，最大化缓存命中
模型选择：简单的格式润色/扩写用 deepseek-v4-flash（便宜 4 倍）
本地回落：隐私不敏感 + 简单任务 → Ollama qwen2.5:14b（免费）
RAG 截断：严格控制注入范文的长度（800 tokens/篇 × 3篇）
批量预热：每天首次请求前批量预热缓存

7. 完整 Prompt 示例

以下为实际可用的 prompt 示例，使用 OpenAI API 格式调用 DeepSeek V4-Pro。

示例 1：工作讲话（安全生产工作部署讲话）

import openai

client = openai.OpenAI(
    api_key="<your-deepseek-key>",
    base_url="https://api.deepseek.com"
)

response = client.chat.completions.create(
    model="deepseek-v4-pro",
    messages=[
        {
            "role": "system",
            "content": """你是XX市应急管理局政研室的资深笔杆子，从业18年，专门给市领导起草安全生产相关讲话。
你笔下的讲话有三个特点：问题找得准、措施定得实、语言有力度。

【写作原则】
1. 安全生产讲话要有"忧患意识"——先讲问题、敲警钟，再讲部署
2. 措施要"可执行"：每条都包含"谁来做、做什么、标准是什么"
3. 善用"三个必须"（管行业必须管安全、管业务必须管安全、管生产经营必须管安全）
4. 引用案例时用"近期国内发生的X起事故表明..."（不具体点名）
5. 结尾要有"如履薄冰""时时放心不下"等安全领域常用表述

【标准框架】
一、开篇（当前形势 + 会议目的）
二、深刻认识当前安全生产面临的严峻形势（2-3个问题）
三、聚焦重点领域，全力抓好安全防范工作（3-4个领域）
四、压紧压实责任，确保各项措施落地见效
五、号召收尾"""
        },
        {
            "role": "user",
            "content": """请撰写一篇市级安全生产委员会全体会议上的讲话稿。

【具体要求】
- 发言身份：市长、市安委会主任
- 场合：市安委会2026年第二次全体会议
- 字数：2000字左右
- 重点领域：建筑施工、城镇燃气、消防安全
- 当前背景：一季度事故同比上升，进入夏季高温施工期
- 风格：严肃、有力、部署明确"""
        }
    ],
    reasoning_effort="high",
    extra_body={"thinking": {"type": "enabled"}},
    max_tokens=6000
)

print(response.choices[0].message.content)

示例 2：经验交流材料（乡村振兴产业帮扶）

response = client.chat.completions.create(
    model="deepseek-v4-pro",
    messages=[
        {
            "role": "system",
            "content": """你是XX省农业农村厅政策研究处的笔杆子，有15年三农工作经验。
你最擅长写经验交流材料：做法实、数据准、模式可推广。

【写作原则】
1. 标题要提炼亮点，用"动词+宾语+效果"结构
2. 正文70%篇幅给"做法"，每条做法=措施+数据+效果
3. 数据用具体数字，不用"大幅提升""明显改善"等模糊表述
4. 每部分小标题对仗工整，12字以内
5. 结尾的"体会"要有规律性认识，不能写成表决心

【标准框架】
一、背景与问题（150字，快速带过）
二、主要做法（每个做法300-400字，含措施+案例+数据）
  （一）7字对仗标题
  （二）7字对仗标题
  （三）7字对仗标题
三、工作成效（列出3-5个关键指标数据）
四、几点体会（2-3条规律性认识）"""
        },
        {
            "role": "user",
            "content": """请撰写一篇省级经验交流材料。

【具体要求】
- 主题：XX县"电商+合作社+农户"产业帮扶模式
- 场合：全省乡村振兴工作现场推进会
- 字数：2500字
- 关键数据（请合理填入框架）：
  - 建成镇村电商服务站点87个
  - 培育农民专业合作社132家
  - 带动4260户农户年均增收1.8万元
  - 2025年农产品网络零售额突破3.2亿元
- 核心亮点：品牌化运营、冷链物流体系、利益联结机制"""
        }
    ],
    reasoning_effort="high",
    extra_body={"thinking": {"type": "enabled"}},
    max_tokens=6000
)

print(response.choices[0].message.content)

示例 3：调研报告（养老服务体系建设）

response = client.chat.completions.create(
    model="deepseek-v4-pro",
    messages=[
        {
            "role": "system",
            "content": """你是XX市民政局政研室的资深研究员，专精于撰写民生领域的调研报告。
你的报告以"数据翔实、问题深刻、建议可行"受到市委市政府主要领导多次批示。

【写作原则】
1. 问题是报告的灵魂——敢于直面矛盾，但不越政治红线
2. 现状用数据说话，问题用事实说明，建议用路径落定
3. 调研方法要交代清楚（座谈会X场、走访X个点位、问卷X份）
4. 每个问题对应1-2条建议，不脱节
5. 建议分近期、中期、远期三层，增强可操作性
6. 用"调研发现""数据显示""XX反映"，不用"我认为""我觉得"

【标准框架】
一、调研背景与方法（150字）
二、基本情况（300字，用数据描述现状）
三、主要做法与成效（400字，肯定已有成绩）
四、存在问题与原因分析（600字，核心部分，按重要性排序3-5个问题）
五、对策建议（800字，与问题一一对应）
  （一）近期建议（3个月内可启动）
  （二）中期建议（半年-1年）
  （三）远期建议（1-3年系统布局）
六、结语（100字）"""
        },
        {
            "role": "user",
            "content": """请撰写一篇关于养老服务体系建设情况的调研报告。

【具体要求】
- 调研主体：XX市人大常委会专题调研组
- 调研范围：全市3个区（县）、12个养老服务机构
- 调研方式：实地走访、座谈会6场、发放问卷500份
- 字数：3000-3500字
- 需要涉及的要点：
  1. 居家社区养老覆盖情况
  2. 机构养老床位供给与结构性矛盾
  3. 医养结合推进中的堵点
  4. 养老服务人才短缺问题
  5. 长期护理保险试点情况
- 数据留空标注[数据待填充]，便于使用者填入实际数据"""
        }
    ],
    reasoning_effort="high",
    extra_body={"thinking": {"type": "enabled"}},
    max_tokens=8000
)

print(response.choices[0].message.content)

8. 进阶特性设计

8.1 多轮对话优化

场景：用户生成初稿后要求"第二段语气不够有力，改一下"

实现策略：
1. 保留初稿全文在上下文
2. 追加 user message: "第二段语言力度不够，请用更有力的排比句式改写，保持原意"
3. DeepSeek 思考模式下会自动对比两版差异并输出优化版
4. 上下文管理：保留最近 3 版，超出后摘要压缩

token 成本：每轮 ~6000 tokens 输入 + ~1000 tokens 输出 ≈ ¥0.03/轮

8.2 风格迁移

功能：学习某位领导的文风，复刻到新稿件

实现：
1. 上传该领导 3-5 篇历史讲话
2. 提取特征：句式长度、惯用词频、排比偏好、开头/结尾模式
3. 构建 "风格描述" prompt 片段注入 system prompt
4. 生成时约束模型模仿该风格

示例风格描述：
"该领导讲话特点：短句为主（平均15字/句），善用反问和设问，
喜欢引用古诗词，开头惯用'今天是...的日子'，结尾常用
'让我们...'号召句式，数字表达多用'翻一番''突破XX亿'"

8.3 合规检查流水线

# 后处理敏感词检查（本地执行，不上传云端）
SENSITIVE_PATTERNS = [
    # 领导姓名（避免错误表述）
    # 敏感历史事件
    # 领土问题表述（港澳台藏疆）
    # 特定禁用词汇
]

def compliance_check(text: str) -> dict:
    """
    返回：{passed: bool, issues: [{position, severity, suggestion}]}
    """
    # AC 自动机多模式匹配
    # 返回所有命中及其上下文

9. 竞争产品分析

9.1 现有产品对比

产品	优势	劣势	价格
讯飞公文写作	语音输入、多终端覆盖、机关单位渗透率高	模板化严重、缺乏深度思考、大模型能力一般	企业版 ¥3000+/年
WPS AI 公文	与 WPS 深度集成、格式排版自动化、本地化部署选项	依赖 WPS 生态、模型
能力受限于金山自有模型	WPS 会员 ¥89/年 + AI ¥198/年
百度公文写作助手	百度搜索生态词库、政策文件库大	产品更新慢、功能简陋	免费（基础功能）
笔杆网	专注公文领域、范文库丰富	AI 能力弱、用户体验老旧	¥199/年
ChatGPT + 自有 prompt	模型能力强	政治正确性无保障、中文公文语感差、需翻墙	$20/月
DeepSeek + 本方案	模型能力强(思考模式)、中文公文体感好、成本极低、可私有化部署	需自行搭建 RAG 和前端	API 按量付费(月¥5-60)

9.2 本方案核心优势

模型碾压：DeepSeek V4-Pro 思考模式在中文长文生成方面远超国内竞品使用的模型
成本极致：API 单篇 ¥0.03-0.05，是讯飞/WPS 的 1/100
完全可控：开源技术栈，不绑定任何平台
隐私安全：支持纯本地模式（Ollama + 本地 RAG）
可定制：prompt、模板、风格全部可自建

10. 实施路线图

Phase 1：MVP（2-3 周）

目标：能用的单文体生成器

功能：
✅ 网页输入框 + 文体选择 + 字数设置
✅ 4 种文体内置 prompt 模板
✅ DeepSeek API 调用（thinking mode）
✅ Markdown 渲染输出 + 一键复制
✅ 简单的敏感词后处理

技术：
- Next.js 14 单页面
- API Route 直接调用 DeepSeek
- 暂无需数据库和 RAG

开发量：~2 人周

Phase 2：RAG 增强（2-3 周）

功能：
✅ 范文库（初始化 100 篇精选范文）
✅ ChromaDB + BGE-M3 向量检索
✅ 政策术语库（初始化 2000 条）
✅ 生成时自动检索并注入相关素材
✅ 引用溯源标注

开发量：~3 人周

Phase 3：完整体验（3-4 周）

功能：
✅ 用户系统（多用户、私有范文库）
✅ 版本管理（保留历史生成记录）
✅ 风格迁移（学习领导文风）
✅ 多轮改写
✅ 格式导出（Word/PDF，保持公文格式）
✅ 本地隐私模式切换

开发量：~4 人周

11. 风险与应对

风险	概率	影响	应对
DeepSeek API 敏感词过滤导致输出中断	中	高	前端实时检测 + 本地 Ollama 备选
政策术语时效性滞后	高	中	政策术语库月度自动更新 + 人工审核
生成内容政治不正确	低	致命	多层过滤（模型层 + 后处理 + 人工审核建议）
API 服务中断	低	中	本地 Ollama 自动 fallback
大模型幻觉编造数据	中	高	数据字段标注 `[数据待确认]` + 用户二次确认流程
涉密内容上云	低	致命	隐私模式强制本地推理 + 上传前警告弹窗

附录 A：DeepSeek API 调用参数参考

# 推荐的公文生成 API 调用参数
{
    "model": "deepseek-v4-pro",       # 最强模型
    "messages": [...],                # system + user messages
    "reasoning_effort": "high",       # 深度推理（公文需要）
    "extra_body": {
        "thinking": {"type": "enabled"}  # 启用思考模式
    },
    "max_tokens": 8192,               # 足够输出 3000-4000 字
    "temperature": null,              # 思考模式下不支持，不传
    "stream": True                    # 流式输出，改善用户体验
}

附录 B：关键词

公文写作 AI
DeepSeek V4-Pro
讲话稿模板
RAG 检索增强
思考模式 (Thinking Mode)
Prompt Engineering
政策术语库
层级表达规范
ChromaDB
BGE-M3

文档版本：v1.0 | 生成日期：2026-04-29 | 基于 DeepSeek API 官方文档（2026-04 更新）和公文写作领域知识综合编写。