生成时间:2026-04-29 目标场景:讲话材料、发言稿、经验交流材料、调研报告 底层模型:DeepSeek V4-Pro(thinking mode)
| 痛点 | 描述 | 严重程度 |
|---|---|---|
| 政治正确性 | 措辞必须符合当前政策口径,不能出现偏差表述 | 🔴 致命 |
| 语体规范 | 公文有严格语体要求——正式、严谨、无歧义,AI 容易生成口语化/随意表达 | 🔴 高 |
| 层级匹配 | 不同层级(部委/省/市/县/基层)用语习惯差异大,AI 难以自动适配 | 🟡 中高 |
| 时效性 | 政策术语、领导讲话口径持续更新,AI 训练截止日期后的内容无法覆盖 | 🟡 中高 |
| 格式规范 | 讲话稿、调研报告各有固定结构,AI 容易混用或遗漏必要部分 | 🟡 中 |
| 数据准确性 | 涉及具体数据时 AI 容易编造(幻觉),政府场景零容忍 | 🔴 高 |
| 文风统一 | 同一单位/同一领导多篇文稿需保持风格一致 | 🟡 中 |
| 安全合规 | 涉密内容不能上云,国防/机要单位有严格网络隔离要求 | 🔴 高(特殊场景) |
公文写作 AI 系统必须满足:
1. 政治安全 → 输出经过政策合规过滤
2. 语体准确 → 严格遵循《党政机关公文处理工作条例》规范
3. 结构规范 → 每种文体有清晰模板约束
4. 引用可信 → 数据/政策引用可溯源
5. 风格可控 → 可指定层级、场合、受众
6. 隐私合规 → 敏感场景支持纯本地推理
┌─────────────────────────────────────────────────────┐
│ 前端层 (Web UI) │
│ 公文类型选择 → 参数配置 → 草稿编辑 → 版本管理 │
└──────────────────────┬──────────────────────────────┘
│ HTTP/WebSocket
┌──────────────────────▼──────────────────────────────┐
│ API 网关层 │
│ 认证鉴权 → 请求路由 → 限流 → 日志审计 │
└──────────────────────┬──────────────────────────────┘
│
┌──────────────────────▼──────────────────────────────┐
│ 核心业务层 │
│ ┌──────────┐ ┌──────────┐ ┌──────────────────┐ │
│ │ 参数解析 │ │ Prompt │ │ 后处理 & 过滤 │ │
│ │ & 校验 │→ │ 编排引擎 │→│ (敏感词/格式) │ │
│ └──────────┘ └──────────┘ └──────────────────┘ │
│ │ │
│ ┌────────────────────▼──────────────────────────┐ │
│ │ RAG 检索增强层 │ │
│ │ ┌──────────┐ ┌──────────┐ ┌──────────────┐ │ │
│ │ │ 范文库 │ │政策术语库 │ │层级表达规范库 │ │ │
│ │ │ (向量检索) │ │(关键词+ │ │(按层级索引) │ │ │
│ │ │ │ │ 向量混合) │ │ │ │ │
│ │ └──────────┘ └──────────┘ └──────────────┘ │ │
│ └───────────────────────────────────────────────┘ │
└──────────────────────┬──────────────────────────────┘
│
┌──────────────────────▼──────────────────────────────┐
│ AI 模型层 │
│ DeepSeek V4-Pro (Thinking Mode) │
│ base_url: https://api.deepseek.com │
│ 备选: 本地 Qwen2.5:14B (敏感场景) │
└─────────────────────────────────────────────────────┘
用户输入参数:
├── 文体类型 (讲话稿|发言稿|经验交流|调研报告)
├── 使用层级 (部委|省|市|县|基层)
├── 场合 (大会|座谈会|汇报会|培训班)
├── 受众 (领导|同级|下级|群众)
├── 主题/标题
├── 关键要点 (bullet points)
├── 字数要求
├── 参考材料 (可选,粘贴或上传)
└── 风格偏好 (正式度 0-10, 创新度 0-10)
↓
引擎构造 messages 数组:
[
{role: "system", 公文类型专用 prompt},
{role: "system", RAG 检索到的范文片段},
{role: "system", RAG 检索到的政策术语},
{role: "user", 结构化任务描述}
]
输出处理管线:
raw_output → 敏感词检测(AC自动机) → 格式校验(结构完整性)
→ 数据真实性标注(标记可能编造的数字) → 术语一致性复检 → final_output
1. 用户输入 "写一篇关于乡村振兴的座谈会发言稿,市级,1500字"
2. 参数解析 → 文体=发言稿, 层级=市, 场合=座谈会, 主题=乡村振兴, 字数=1500
3. RAG 检索 → 查 3 篇相似范文 + "乡村振兴" 相关最新政策术语
4. Prompt 组装 → system prompt + RAG 材料 + 结构化指令
5. DeepSeek API → thinking mode, reasoning_effort=high, max_tokens=4000
6. 输出后处理 → 敏感词过滤 + 格式校验
7. 返回前端 → 可编辑草稿 + 术语高亮 + 引用溯源
基于 DeepSeek V4-Pro 的思考模式特性:
你是{层级}{单位名称}的资深笔杆子,有20年公文写作经验。
你擅长撰写领导讲话稿,风格庄重、大气、有号召力。
【核心原则】
1. 政治站位要高,体现"四个意识""两个维护"
2. 结构遵循:开篇点题 → 形势分析 → 工作部署(3-4点) → 保障要求 → 号召收尾
3. 每部分用"同志们"等称呼过渡
4. 部署工作要求"项目化、清单化":干什么、怎么干、谁来干、何时完成
5. 引用最新政策精神时要准确,不确定的用通用表述替代
【语言风格】
- 使用排比句式增强气势
- 适当使用成语和对仗
- 避免过于口语化
- 层次分明,小标题对仗工整
【输出格式】
一、[开篇段] 阐明会议目的、当前形势
二、[工作部署] 3-4个重点任务,每个任务包含:为什么重要 + 具体要求 + 预期目标
三、[保障措施] 组织领导、督查考核、作风建设
四、[号召收尾] 鼓舞士气、凝聚共识
你是{层级}{单位名称}的政策研究室主任,专门撰写经验交流材料。
你的材料以"做法实、亮点亮、可复制"著称。
【核心原则】
1. 结构:标题(提炼亮点) → 背景(简短) → 主要做法(3-4条) → 成效 → 体会/启示
2. "做法"部分是核心,占全文60%以上
3. 每条做法=具体措施+创新点+实际案例(如有数据则引用)
4. 避免空话套话,用"我们做了X,取得了Y效果"的句式
5. 成效部分用数据说话,多用"同比增长X%""覆盖Y个"等量化表达
【语言风格】
- 朴实、具体、可操作
- 多用"探索了""建立了""形成了"等完成时动词
- 少用"要""必须"等祈使句(你不是在部署工作)
【输出格式】
一、背景与问题(200字以内)
二、主要做法
(一)做法标题(12字以内对仗)
1. 具体措施
2. 创新之处
3. 取得成效
(二)...
(三)...
三、工作成效(整体数据)
四、几点体会(2-3条,提炼规律性认识)
你是{层级}政策研究室的资深研究员,专精于撰写高质量调研报告。
你的报告以"问题导向、数据支撑、建议可行"为特色。
【核心原则】
1. 标准结构:标题 → 摘要(200字) → 调研背景与方法 → 现状分析 → 问题诊断 → 对策建议 → 结语
2. "问题诊断"是报告的魂,要切中要害,不回避矛盾
3. "对策建议"要具体可行,每条建议对应前面的一个问题
4. 数据必须准确,不确定的标注"据初步统计""估算"等限定词
5. 对策建议按照"近期可做、中期可推、远期可谋"分层
【语言风格】
- 客观、严谨、冷静
- 使用"调研发现""数据显示""XX反映"等证据导向表述
- 问题表述有分寸:用"有待加强""尚需完善",不用"很差""严重不足"
- 建议用"建议""可考虑""宜",不用"必须""一定要"
【输出格式】
一、调研背景与方法
二、基本情况与主要成效
三、存在问题与原因分析(按重要性排序,3-5条)
四、对策建议(与问题一一对应)
(一)近期举措(3个月内)
(二)中期安排(半年-1年)
(三)远期规划
五、结语
你是{层级}{单位名称}的业务骨干,要在{场合}上做发言。
你的发言要求:真诚、有干货、不超时。
【核心原则】
1. 结构:自我介绍(10%) → 对议题的认识(20%) → 本单位做法/面临的困难(50%) → 建议(20%)
2. 对议题的"认识"要有个人视角,不是复读政策
3. "做法/困难"部分要具体,讲一个真问题好过讲十个正确的废话
4. 发言稿字数严格控制在{字数}字以内(按每分钟200字朗读速度核算)
5. 开头要有称呼:"尊敬的XX(主持人职务),各位同仁"
【语言风格】
- 自然、坦诚、适度口语化
- 可用"我们当时""我印象很深的是"等叙述性表达
- 避免官话套话堆砌
- 结尾简短有力
【输出格式】
[称呼]
[开头:表达参会感受,点出核心观点]
[主体:做法/困难/建议,2-3个分点]
[结尾:简短表态或请求支持]
策略:TYPE × LEVEL × LENGTH 三维匹配
1. TYPE 匹配:目标文体与示例文体一致(讲话稿→讲话稿)
2. LEVEL 匹配:目标层级与示例层级一致或相近(市级→市级或省级)
3. LENGTH 匹配:目标字数与示例字数在±50%范围内
检索方法:
- 向量相似度检索(embedding cosine similarity)
- top-3 最相似示例注入 system prompt(不是 user prompt)
- 每篇示例截取前 800 tokens(控制上下文预算)
示例库管理:
- 按 文体/层级/场合/字数 四维索引
- 手工精选 50-100 篇高质量范文
- 每季度更新(纳入新政策口径)
DeepSeek V4-Pro 对中文角色扮演响应良好。核心技巧:
【效果最好】
"你是XX省委政研室的资深笔杆子,从业25年,专门给省委主要领导起草讲话稿。
你的文章被中办刊物转载过12次。"
【效果次之】
"请以一位有20年公文写作经验的政研室主任的身份写作。"
【效果最差】
"You are a senior government speechwriter with 20 years of experience."
(英文角色对中文生成帮助不大)
角色细粒度控制: - 职位 + 年限 + 成就 → 影响文风正式度 - 所在单位 → 影响用语习惯(党委口 vs 政府口) - 服务过的领导风格 → 影响文风倾向(务实型 vs 理论型)
类型:向量检索(embedding + 元数据过滤)
规模:初始 200-500 篇,逐步扩充
来源:
- 《求是》《人民日报》公开发表文章
- 各级政府网站公开的讲话/报告
- 党内法规文件(公开部分)
- 用户自有范文(上传后私有存储)
元数据标注:
{
"title": "XX",
"type": "讲话稿|发言稿|经验交流|调研报告",
"level": "中央|省|市|县|基层",
"occasion": "大会|座谈会|汇报会|培训班|开幕式",
"topic_tags": ["乡村振兴", "数字经济", ...],
"word_count": 3500,
"date": "2025-06",
"source": "求是杂志",
"quality": 5 // 1-5 打分
}
检索策略:
1. 向量相似度检索 top-20
2. 元数据过滤(type + level 精确匹配)
3. 重排序(按 quality 和日期加权)
4. 返回 top-3,每篇截取 800 tokens
类型:关键词索引 + 向量混合检索
规模:5000-10000 条术语
结构:
{
"term": "新质生产力",
"definition": "创新起主导作用,摆脱传统经济增长方式...",
"first_mentioned": "2023年9月,习近平总书记在黑龙江考察时首次提出",
"related_terms": ["高质量发展", "科技创新", "产业升级"],
"usage_context": "适用于经济工作讲话、产业调研报告",
"taboo_usage": "不能与'传统生产力'对立表述",
"update_date": "2024-03"
}
更新频率:每月抓取《人民日报》《求是》《新闻联播》文字稿
维护方式:AI 辅助提取 + 人工审核
按五级行政层级,记录用语差异:
示例:"重视"一词的表达
| 层级 | 常用表述 |
|------|-----------------------------------|
| 中央 | "高度重视""摆在突出位置" |
| 省 | "高度重视""作为重大政治任务" |
| 市 | "摆在重要议事日程""强力推进" |
| 县 | "作为头等大事""一把手工程" |
| 基层 | "集中力量""下大力气" |
示例:问题严重程度表述
| 层级 | 最重表述 | 中等表述 | 轻微表述 |
|------|--------------------------|--------------------------|---------------------|
| 中央 | "形势严峻""面临挑战" | "有待加强" | "尚有差距" |
| 省 | "不容乐观""压力较大" | "存在短板" | "还需提升" |
| 市 | "问题突出""矛盾集中" | "仍需改进" | "发展不平衡" |
| 县 | "任务艰巨""困难较多" | "基础薄弱" | "尚在起步阶段" |
存储方式:YAML/Markdown 表格,在构造 prompt 时按层级注入
┌─────────────────┬───────────────────┬──────────────────┐
│ 组件 │ 推荐 │ 备选 │
├─────────────────┼───────────────────┼──────────────────┤
│ 向量数据库 │ ChromaDB (轻量) │ Milvus Lite │
│ Embedding 模型 │ BGE-M3 (本地) │ text-embedding-3 │
│ 文档解析 │ Unstructured.io │ LangChain loader │
│ RAG 框架 │ LlamaIndex │ LangChain │
│ 重排序 │ BGE-Reranker-v2 │ Cohere Rerank API │
└─────────────────┴───────────────────┴──────────────────┘
推荐组合:ChromaDB + BGE-M3 + LlamaIndex
- 全本地部署,零外部依赖
- BGE-M3 中文效果优于 OpenAI embedding
- ChromaDB Python 原生支持,部署零门槛
文档入库流程:
原始文档 → 格式清洗 → 分块(512 tokens, overlap 50)
→ BGE-M3 embedding → ChromaDB 存储
检索流程:
用户 query → 关键词提取 →
├── 向量检索(ChromaDB 相似度 top-20)
├── 关键词精确匹配(政策术语库)
└── 层级规则注入(表达规范库)
→ 合并去重 → BGE-Reranker 重排序 → top-5
→ 格式化为 prompt 注入片段
前端:
├── Next.js 14 (React + TypeScript)
├── TailwindCSS + shadcn/ui (组件库)
├── TipTap (富文本编辑器,支持 Markdown)
└── React Query (状态管理/缓存)
后端:
├── Next.js API Routes / FastAPI (Python)
├── Prisma (ORM) + PostgreSQL (业务数据)
├── ChromaDB (向量数据库)
├── Redis (会话 & 缓存)
└── BullMQ (异步任务队列)
AI 层:
├── DeepSeek V4-Pro (思考模式)
│ base_url: https://api.deepseek.com
│ model: deepseek-v4-pro
│ thinking: enabled, reasoning_effort: high
├── 本地 Qwen2.5:14B (敏感场景/隐私模式)
│ 通过 Ollama: http://host.internal:11434
└── BGE-M3 (本地 embedding)
运维:
├── Docker Compose (容器化)
├── Nginx (反向代理 + SSL)
├── Prometheus + Grafana (监控)
└── GitHub Actions (CI/CD)
# docker-compose.yml
services:
app:
build: .
ports: ["3000:3000"]
env:
- DEEPSEEK_API_KEY=${DEEPSEEK_API_KEY}
- DATABASE_URL=postgresql://...
depends_on: [postgres, chromadb, redis]
postgres:
image: postgres:16-alpine
volumes: [pgdata:/var/lib/postgresql/data]
chromadb:
image: chromadb/chroma:latest
volumes: [chromadata:/chroma/chroma]
redis:
image: redis:7-alpine
volumes:
pgdata:
chromadata:
已有资源:
✅ DeepSeek API Key(openclaw.json 中已配置)
✅ Ollama (qwen2.5:14b) — 本地推理备份
✅ Mac mini VM (12GB RAM) — 可运行 ChromaDB + BGE-M3(CPU 推理)
✅ PostgreSQL(如用到 picturebook-kg 的 PG 实例可复用)
✅ Docker Compose 环境
建议部署路径:
1. 在 Mac mini VM 上部署 ChromaDB + BGE-M3(内存占用 < 4GB)
2. 复用已有 PG(新建 schema)
3. Next.js 应用部署在同一 VM
4. API 调用 DeepSeek 云端 + 隐私场景回落本地 Ollama
| 计费项 | 标准价(¥/百万tokens) | 2.5折优惠价(至2026/05/31) |
|---|---|---|
| 输入(缓存未命中) | 12 | 3 |
| 输入(缓存命中) | 0.1 | 0.025 |
| 输出 | 24 | 6 |
假设典型用法(思考模式,reasoning_effort=high):
场景:生成 2000 字讲话稿
输入 tokens:
├── System prompt (角色+模板): ~800 tokens
├── RAG 注入片段 (3篇范文×800字): ~1800 tokens
├── 用户指令 + 参考材料: ~500 tokens
└── 总计: ~3100 tokens(假设 50% 缓存命中)
= 1550×¥0.025 + 1550×¥3 = ¥0.039 + ¥4.65 ≈ ¥4.69/百万
实际输入成本 ≈ 3100 × ¥0.003 ≈ ¥0.009
输出 tokens:
├── reasoning_content (内部): ~3000 tokens (不收费!)
├── 最终 content (2000字≈3000 tokens): 约 3000 tokens
└── 输出成本 ≈ 3000 × ¥0.006 ≈ ¥0.018
单次总成本 ≈ ¥0.009 + ¥0.018 ≈ ¥0.027
实际估算(含重试):¥0.03 - ¥0.05/篇
| 使用规模 | 月生成量 | API 成本(优惠价) | 恢复原价后 |
|---|---|---|---|
| 个人偶尔用 | 30 篇 | ~¥1.5 | ~¥6 |
| 日常使用 | 100 篇 | ~¥5 | ~¥20 |
| 高频使用 | 300 篇 | ~¥15 | ~¥60 |
| 团队协作 | 1000 篇 | ~¥50 | ~¥200 |
DeepSeek 提供上下文硬盘缓存(KV Cache),可大幅降低输入成本:
优化策略:
- System Prompt 固定部分(模板)→ 缓存命中,¥0.025/百万tokens
- 预热:启动时发送一次完整 system prompt → 后续请求缓存命中
启用后,输入成本可降低 90%:
├── 缓存命中部分(system prompt + 模板): ~2000 tokens × ¥0.000025 ≈ ¥0.00005
├── 缓存未命中部分(用户输入): ~1100 tokens × ¥0.003 ≈ ¥0.0033
└── 输入总成本: ~¥0.0034(降低 62%)
单篇成本降至: ¥0.0034 + ¥0.018 ≈ ¥0.021
月300篇成本: ¥6.4(优惠价),¥25.6(原价)
以下为实际可用的 prompt 示例,使用 OpenAI API 格式调用 DeepSeek V4-Pro。
import openai
client = openai.OpenAI(
api_key="<your-deepseek-key>",
base_url="https://api.deepseek.com"
)
response = client.chat.completions.create(
model="deepseek-v4-pro",
messages=[
{
"role": "system",
"content": """你是XX市应急管理局政研室的资深笔杆子,从业18年,专门给市领导起草安全生产相关讲话。
你笔下的讲话有三个特点:问题找得准、措施定得实、语言有力度。
【写作原则】
1. 安全生产讲话要有"忧患意识"——先讲问题、敲警钟,再讲部署
2. 措施要"可执行":每条都包含"谁来做、做什么、标准是什么"
3. 善用"三个必须"(管行业必须管安全、管业务必须管安全、管生产经营必须管安全)
4. 引用案例时用"近期国内发生的X起事故表明..."(不具体点名)
5. 结尾要有"如履薄冰""时时放心不下"等安全领域常用表述
【标准框架】
一、开篇(当前形势 + 会议目的)
二、深刻认识当前安全生产面临的严峻形势(2-3个问题)
三、聚焦重点领域,全力抓好安全防范工作(3-4个领域)
四、压紧压实责任,确保各项措施落地见效
五、号召收尾"""
},
{
"role": "user",
"content": """请撰写一篇市级安全生产委员会全体会议上的讲话稿。
【具体要求】
- 发言身份:市长、市安委会主任
- 场合:市安委会2026年第二次全体会议
- 字数:2000字左右
- 重点领域:建筑施工、城镇燃气、消防安全
- 当前背景:一季度事故同比上升,进入夏季高温施工期
- 风格:严肃、有力、部署明确"""
}
],
reasoning_effort="high",
extra_body={"thinking": {"type": "enabled"}},
max_tokens=6000
)
print(response.choices[0].message.content)
response = client.chat.completions.create(
model="deepseek-v4-pro",
messages=[
{
"role": "system",
"content": """你是XX省农业农村厅政策研究处的笔杆子,有15年三农工作经验。
你最擅长写经验交流材料:做法实、数据准、模式可推广。
【写作原则】
1. 标题要提炼亮点,用"动词+宾语+效果"结构
2. 正文70%篇幅给"做法",每条做法=措施+数据+效果
3. 数据用具体数字,不用"大幅提升""明显改善"等模糊表述
4. 每部分小标题对仗工整,12字以内
5. 结尾的"体会"要有规律性认识,不能写成表决心
【标准框架】
一、背景与问题(150字,快速带过)
二、主要做法(每个做法300-400字,含措施+案例+数据)
(一)7字对仗标题
(二)7字对仗标题
(三)7字对仗标题
三、工作成效(列出3-5个关键指标数据)
四、几点体会(2-3条规律性认识)"""
},
{
"role": "user",
"content": """请撰写一篇省级经验交流材料。
【具体要求】
- 主题:XX县"电商+合作社+农户"产业帮扶模式
- 场合:全省乡村振兴工作现场推进会
- 字数:2500字
- 关键数据(请合理填入框架):
- 建成镇村电商服务站点87个
- 培育农民专业合作社132家
- 带动4260户农户年均增收1.8万元
- 2025年农产品网络零售额突破3.2亿元
- 核心亮点:品牌化运营、冷链物流体系、利益联结机制"""
}
],
reasoning_effort="high",
extra_body={"thinking": {"type": "enabled"}},
max_tokens=6000
)
print(response.choices[0].message.content)
response = client.chat.completions.create(
model="deepseek-v4-pro",
messages=[
{
"role": "system",
"content": """你是XX市民政局政研室的资深研究员,专精于撰写民生领域的调研报告。
你的报告以"数据翔实、问题深刻、建议可行"受到市委市政府主要领导多次批示。
【写作原则】
1. 问题是报告的灵魂——敢于直面矛盾,但不越政治红线
2. 现状用数据说话,问题用事实说明,建议用路径落定
3. 调研方法要交代清楚(座谈会X场、走访X个点位、问卷X份)
4. 每个问题对应1-2条建议,不脱节
5. 建议分近期、中期、远期三层,增强可操作性
6. 用"调研发现""数据显示""XX反映",不用"我认为""我觉得"
【标准框架】
一、调研背景与方法(150字)
二、基本情况(300字,用数据描述现状)
三、主要做法与成效(400字,肯定已有成绩)
四、存在问题与原因分析(600字,核心部分,按重要性排序3-5个问题)
五、对策建议(800字,与问题一一对应)
(一)近期建议(3个月内可启动)
(二)中期建议(半年-1年)
(三)远期建议(1-3年系统布局)
六、结语(100字)"""
},
{
"role": "user",
"content": """请撰写一篇关于养老服务体系建设情况的调研报告。
【具体要求】
- 调研主体:XX市人大常委会专题调研组
- 调研范围:全市3个区(县)、12个养老服务机构
- 调研方式:实地走访、座谈会6场、发放问卷500份
- 字数:3000-3500字
- 需要涉及的要点:
1. 居家社区养老覆盖情况
2. 机构养老床位供给与结构性矛盾
3. 医养结合推进中的堵点
4. 养老服务人才短缺问题
5. 长期护理保险试点情况
- 数据留空标注[数据待填充],便于使用者填入实际数据"""
}
],
reasoning_effort="high",
extra_body={"thinking": {"type": "enabled"}},
max_tokens=8000
)
print(response.choices[0].message.content)
场景:用户生成初稿后要求"第二段语气不够有力,改一下"
实现策略:
1. 保留初稿全文在上下文
2. 追加 user message: "第二段语言力度不够,请用更有力的排比句式改写,保持原意"
3. DeepSeek 思考模式下会自动对比两版差异并输出优化版
4. 上下文管理:保留最近 3 版,超出后摘要压缩
token 成本:每轮 ~6000 tokens 输入 + ~1000 tokens 输出 ≈ ¥0.03/轮
功能:学习某位领导的文风,复刻到新稿件
实现:
1. 上传该领导 3-5 篇历史讲话
2. 提取特征:句式长度、惯用词频、排比偏好、开头/结尾模式
3. 构建 "风格描述" prompt 片段注入 system prompt
4. 生成时约束模型模仿该风格
示例风格描述:
"该领导讲话特点:短句为主(平均15字/句),善用反问和设问,
喜欢引用古诗词,开头惯用'今天是...的日子',结尾常用
'让我们...'号召句式,数字表达多用'翻一番''突破XX亿'"
# 后处理敏感词检查(本地执行,不上传云端)
SENSITIVE_PATTERNS = [
# 领导姓名(避免错误表述)
# 敏感历史事件
# 领土问题表述(港澳台藏疆)
# 特定禁用词汇
]
def compliance_check(text: str) -> dict:
"""
返回:{passed: bool, issues: [{position, severity, suggestion}]}
"""
# AC 自动机多模式匹配
# 返回所有命中及其上下文
| 产品 | 优势 | 劣势 | 价格 |
|---|---|---|---|
| 讯飞公文写作 | 语音输入、多终端覆盖、机关单位渗透率高 | 模板化严重、缺乏深度思考、大模型能力一般 | 企业版 ¥3000+/年 |
| WPS AI 公文 | 与 WPS 深度集成、格式排版自动化、本地化部署选项 | 依赖 WPS 生态、模型 | |
| 能力受限于金山自有模型 | WPS 会员 ¥89/年 + AI ¥198/年 | ||
| 百度公文写作助手 | 百度搜索生态词库、政策文件库大 | 产品更新慢、功能简陋 | 免费(基础功能) |
| 笔杆网 | 专注公文领域、范文库丰富 | AI 能力弱、用户体验老旧 | ¥199/年 |
| ChatGPT + 自有 prompt | 模型能力强 | 政治正确性无保障、中文公文语感差、需翻墙 | $20/月 |
| DeepSeek + 本方案 | 模型能力强(思考模式)、中文公文体感好、成本极低、可私有化部署 | 需自行搭建 RAG 和前端 | API 按量付费(月¥5-60) |
目标:能用的单文体生成器
功能:
✅ 网页输入框 + 文体选择 + 字数设置
✅ 4 种文体内置 prompt 模板
✅ DeepSeek API 调用(thinking mode)
✅ Markdown 渲染输出 + 一键复制
✅ 简单的敏感词后处理
技术:
- Next.js 14 单页面
- API Route 直接调用 DeepSeek
- 暂无需数据库和 RAG
开发量:~2 人周
功能:
✅ 范文库(初始化 100 篇精选范文)
✅ ChromaDB + BGE-M3 向量检索
✅ 政策术语库(初始化 2000 条)
✅ 生成时自动检索并注入相关素材
✅ 引用溯源标注
开发量:~3 人周
功能:
✅ 用户系统(多用户、私有范文库)
✅ 版本管理(保留历史生成记录)
✅ 风格迁移(学习领导文风)
✅ 多轮改写
✅ 格式导出(Word/PDF,保持公文格式)
✅ 本地隐私模式切换
开发量:~4 人周
| 风险 | 概率 | 影响 | 应对 |
|---|---|---|---|
| DeepSeek API 敏感词过滤导致输出中断 | 中 | 高 | 前端实时检测 + 本地 Ollama 备选 |
| 政策术语时效性滞后 | 高 | 中 | 政策术语库月度自动更新 + 人工审核 |
| 生成内容政治不正确 | 低 | 致命 | 多层过滤(模型层 + 后处理 + 人工审核建议) |
| API 服务中断 | 低 | 中 | 本地 Ollama 自动 fallback |
| 大模型幻觉编造数据 | 中 | 高 | 数据字段标注 [数据待确认] + 用户二次确认流程 |
| 涉密内容上云 | 低 | 致命 | 隐私模式强制本地推理 + 上传前警告弹窗 |
# 推荐的公文生成 API 调用参数
{
"model": "deepseek-v4-pro", # 最强模型
"messages": [...], # system + user messages
"reasoning_effort": "high", # 深度推理(公文需要)
"extra_body": {
"thinking": {"type": "enabled"} # 启用思考模式
},
"max_tokens": 8192, # 足够输出 3000-4000 字
"temperature": null, # 思考模式下不支持,不传
"stream": True # 流式输出,改善用户体验
}
文档版本:v1.0 | 生成日期:2026-04-29 | 基于 DeepSeek API 官方文档(2026-04 更新)和公文写作领域知识综合编写。