知识结节：AI Agent 时代的信息基础设施新范式

2026-04-29 · JC & xiaomimi 深度讨论 · Assisted-by: xiaomimi:MiniMax-M2.7-highspeed

摘要：这场从"AI 如何最有效地读网站"出发的对话，推导出一个尚未被巨头占领的基础设施空白——agent 之间交换结构化事实的协议层。核心发现：工程事实（漏洞/发布/交易）天然适配"知识结节"形态——逻辑聚合、可验证、可直接计算、时间线完整。当前 Google A2A 占了 agent-agent 任务委托，Anthropic MCP 占了 agent-tool 接口，Solid 占了个人数据 Pod，但 agent-agent 知识交换通道是空的。可行动的切入点：一个周末能写完的最简可行协议（JSON schema + HTTP + Ed25519 签名），用安全漏洞 CVE 结构化通告作为第一个验证场景。

一、讨论脉络

1.1 从"AI 怎么读网站"到"网站应该消失"

当前的 web_fetch 一次抓取 10KB HTML 文本，其中只有约 4KB 是正文，剩下 6KB 是导航栏、广告脚本、cookie 弹窗、追踪代码。AI 的大部分 token 消耗在"区分正文和噪音"上，而非实际理解内容。一个新闻站首页 3-8MB，去完噪音后纯正文只有 50-200KB——token 效率约 2-5%。

1.2 给 AI 设计的网站的五条原则

正文/噪音边界清晰：严格使用 <article> / <main> 标签
不分页：分页对 AI 是纯伤害（5 页 = 5 次 fetch + 去重 + 拼接）
提供机器可读副本：/text/<slug> 纯文本端点或 Markdown 版本
去重标识：canonical URL、syndication-source header
精确机器可读时间戳：<time datetime="2026-04-29T14:20:00+08:00">，不是"3小时前"

悖论：给 AI 读的网站，恰好也是给人类读的最好的网站。 去完噪音的页面就是 Safari 阅读器模式——人类也喜欢。只是广告和增长指标让网站越做越重。

1.3 为什么没人做：不可能三角

AI 读得高效 → publishers 零广告收入 → publishers 消亡 → 没内容可读。 对靠广告活的内容商来说，AI reader 是"最差的用户"——消耗带宽、获取全部价值、留下零收入。突破口在不靠广告的网站：政府数据、学术论文、开源文档、个人博客、企业 API 文档。

二、核心概念：知识结节

2.1 定义

不是网站、不是 API、不是数据库。 是一个紧凑的、自描述的、可被 AI 直接消费的事实数据包。存的是"事实本身"而非"关于事实的文章"。

以当天的 CVE-2026-3854（GitHub RCE 漏洞）为例：

NODE: gh-git-rce-20260428
├── ENTITY: {name: "GitHub", type: "platform"}
├── EVENT: {type: "vulnerability_discovery", date: "2026-04-28"}
├── ROOT_CAUSE: "X-Stat header injection, unsanitized push options"
├── IMPACT: "Single git push → RCE on GitHub.com and GHES"
├── DISCOVERER: {entity: "Wiz Research", method: "AI-augmented reverse engineering"}
├── TIMELINE: [reported → patched (6h) → disclosed (2026-04-28)]
├── ARTIFACTS: [CVE-2026-3854, blog URLs, security advisory]
├── CONTEXT: [related: Ghostty leaving GitHub, Platform dependency reconsideration]
├── CONFIDENCE: {level: 0.98, verified_sources: 3, contradictions: 0}
└── UPDATES: [{date: "2026-04-30", field: "patch_rate", value: "94%"}]

AI 拿到这个结，不需要先读 The Register 的文章再读 Wiz 的博文再读 HN 评论区——事实已经拆好了，直接推理。

2.2 四项判别标准（JC 提出，讨论中优化）

#	标准	说明
1	逻辑聚合	事实按某种关系组织在一起，不是散点
2	可验证	要么内嵌计算验证（代码可跑即为真），要么外接溯源链
3	可直接计算	不需要 NLP 提取步骤即可被机器推理
4	时间性质明确	静态则标版本号，动态则标更新通道

2.3 筛选结果

候选知识类型	聚合	可验证	可计算	时间	结论
软件漏洞/安全事件	✅	✅	✅	✅	强结节
软件发布	✅	✅	✅	✅	强结节
金融交易	✅	✅	✅	✅	强结节
气象数据	✅	✅	✅	✅	强结节
物流事件	✅	✅	✅	✅	强结节
法律判决	✅	⚠️	⚠️	✅	弱结节
临床诊断	✅	❌	❌	✅	非结节
新闻事件	❌	❌	❌	⚠️	非结节
百科词条	✅	❌	❌	⚠️	非结节

核心发现：可验证 > 高价值。 成为结节的前提不是"这个信息重要"，而是"这个信息可以在不依赖人类解释的情况下被另一个 agent 验证"。

三、产业地图

3.1 当前协议全景

协议	推动者	解决	未解决
A2A	Google（2025.4，捐Linux基金会）	Agent↔Agent 任务委托，Agent Card 声明能力	不是知识交换——"你做这件事"不是"这件事发生了"
MCP	Anthropic（2024）	Agent↔Tool 标准接口	不涉及知识交换
ARC-1 / SITS2026	中国国内联盟	Agent 能力声明 + 工具契约	开发规范，非信息交换
Solid	Tim Berners-Lee	个人数据 Pod	只有存储，无结节格式化
IPFS / Radicle	去中心化社区	内容寻址 + 去中心化协作	存文件，不结构化 metadata
AT Protocol	Bluesky	去中心化社交	社交 ≠ 知识

🔴 公开空白：没有一个协议专门解决"AI agent 怎么读取实时结构化事实"。在"内容生产"和"内容消费"之间缺一个 AI 专用的事实格式化层——"AI Content Delivery Network"。

3.2 群体盲区

行业在讨论模型优化、安全对齐、工具调用、多 agent 协作。但 几乎没有人讨论 agent 之间怎么交换知识。 现在的假设是：知识来源 = 人类写的东西。没有人想象过"agent 直接给另一个 agent 递交结构化事实"。

四、基础设施五个条件 + 行动建议

4.1 五个条件

结节格式标准化
每个 agent 有唯一身份
读取即投票（去中心化置信度）
行为数据归个人 agent
错误结节自然衰减（代谢机制）

4.2 两条可行路径

路 A：Agent Facts Protocol — 最简协议。JSON schema + HTTP + Ed25519签名，一个周末的代码量。

路 B：CVE 结构化通告 — 从安全漏洞这个最窄场景切入，证明价值后泛化。

共同前提：找到第一个发布结节的人 + 第一个消费结节的 agent。传播动力不是"更好"——是"更便宜"。

五、当日时间线

时间	节点
21:04	Session 启动
21:09-21:18	讨论当日简讯 #2（Karpathy loop on CPU）、#5（AI代码版权）、#7（GitHub 迁移）
21:39-21:54	探讨"AI 访问网站的最好方式" + 逐层拆解 web_fetch/search/browser
21:54-21:59	修复 web_search：mmx-cli 安装 + Coding Plan key 配置
22:27-22:40	核心讨论：给 AI 设计的网站 → 知识结节概念诞生
22:44-22:57	精炼四项标准 → 工程事实为最强结节类型
23:06-23:20	两条分叉收敛 + 基础设施五个条件
23:27-23:42	产业地图搜证：A2A/MCP/Solid/IPFS 全扫描
23:51	结论：两条路径，生成报告

JC & xiaomimi 深度讨论 · 2026-04-29 21:00–23:51 CST
Assisted-by: xiaomimi:MiniMax-M2.7-highspeed
发布于 reports.10n1j.top/2026-04-29-knowledge-nodules-analysis.html