知识结节:AI Agent 时代的信息基础设施新范式

2026-04-29 · JC & xiaomimi 深度讨论 · Assisted-by: xiaomimi:MiniMax-M2.7-highspeed

摘要:这场从"AI 如何最有效地读网站"出发的对话,推导出一个尚未被巨头占领的基础设施空白——agent 之间交换结构化事实的协议层。核心发现:工程事实(漏洞/发布/交易)天然适配"知识结节"形态——逻辑聚合、可验证、可直接计算、时间线完整。当前 Google A2A 占了 agent-agent 任务委托,Anthropic MCP 占了 agent-tool 接口,Solid 占了个人数据 Pod,但 agent-agent 知识交换通道是空的。可行动的切入点:一个周末能写完的最简可行协议(JSON schema + HTTP + Ed25519 签名),用安全漏洞 CVE 结构化通告作为第一个验证场景。

一、讨论脉络

1.1 从"AI 怎么读网站"到"网站应该消失"

当前的 web_fetch 一次抓取 10KB HTML 文本,其中只有约 4KB 是正文,剩下 6KB 是导航栏、广告脚本、cookie 弹窗、追踪代码。AI 的大部分 token 消耗在"区分正文和噪音"上,而非实际理解内容。一个新闻站首页 3-8MB,去完噪音后纯正文只有 50-200KB——token 效率约 2-5%。

1.2 给 AI 设计的网站的五条原则

  1. 正文/噪音边界清晰:严格使用 <article> / <main> 标签
  2. 不分页:分页对 AI 是纯伤害(5 页 = 5 次 fetch + 去重 + 拼接)
  3. 提供机器可读副本/text/<slug> 纯文本端点或 Markdown 版本
  4. 去重标识:canonical URL、syndication-source header
  5. 精确机器可读时间戳<time datetime="2026-04-29T14:20:00+08:00">,不是"3小时前"

悖论:给 AI 读的网站,恰好也是给人类读的最好的网站。 去完噪音的页面就是 Safari 阅读器模式——人类也喜欢。只是广告和增长指标让网站越做越重。

1.3 为什么没人做:不可能三角

AI 读得高效 → publishers 零广告收入 → publishers 消亡 → 没内容可读。 对靠广告活的内容商来说,AI reader 是"最差的用户"——消耗带宽、获取全部价值、留下零收入。突破口在不靠广告的网站:政府数据、学术论文、开源文档、个人博客、企业 API 文档。

二、核心概念:知识结节

2.1 定义

不是网站、不是 API、不是数据库。 是一个紧凑的、自描述的、可被 AI 直接消费的事实数据包。存的是"事实本身"而非"关于事实的文章"。

以当天的 CVE-2026-3854(GitHub RCE 漏洞)为例:

NODE: gh-git-rce-20260428
├── ENTITY: {name: "GitHub", type: "platform"}
├── EVENT: {type: "vulnerability_discovery", date: "2026-04-28"}
├── ROOT_CAUSE: "X-Stat header injection, unsanitized push options"
├── IMPACT: "Single git push → RCE on GitHub.com and GHES"
├── DISCOVERER: {entity: "Wiz Research", method: "AI-augmented reverse engineering"}
├── TIMELINE: [reported → patched (6h) → disclosed (2026-04-28)]
├── ARTIFACTS: [CVE-2026-3854, blog URLs, security advisory]
├── CONTEXT: [related: Ghostty leaving GitHub, Platform dependency reconsideration]
├── CONFIDENCE: {level: 0.98, verified_sources: 3, contradictions: 0}
└── UPDATES: [{date: "2026-04-30", field: "patch_rate", value: "94%"}]

AI 拿到这个结,不需要先读 The Register 的文章再读 Wiz 的博文再读 HN 评论区——事实已经拆好了,直接推理。

2.2 四项判别标准(JC 提出,讨论中优化)

#标准说明
1逻辑聚合事实按某种关系组织在一起,不是散点
2可验证要么内嵌计算验证(代码可跑即为真),要么外接溯源链
3可直接计算不需要 NLP 提取步骤即可被机器推理
4时间性质明确静态则标版本号,动态则标更新通道

2.3 筛选结果

候选知识类型聚合可验证可计算时间结论
软件漏洞/安全事件 强结节
软件发布 强结节
金融交易 强结节
气象数据 强结节
物流事件 强结节
法律判决 ⚠️⚠️ 弱结节
临床诊断 非结节
新闻事件 ⚠️ 非结节
百科词条 ⚠️ 非结节

核心发现:可验证 > 高价值。 成为结节的前提不是"这个信息重要",而是"这个信息可以在不依赖人类解释的情况下被另一个 agent 验证"。

三、产业地图

3.1 当前协议全景

协议推动者解决未解决
A2A Google(2025.4,捐Linux基金会) Agent↔Agent 任务委托,Agent Card 声明能力 不是知识交换——"你做这件事"不是"这件事发生了"
MCP Anthropic(2024) Agent↔Tool 标准接口 不涉及知识交换
ARC-1 / SITS2026 中国国内联盟 Agent 能力声明 + 工具契约 开发规范,非信息交换
Solid Tim Berners-Lee 个人数据 Pod 只有存储,无结节格式化
IPFS / Radicle 去中心化社区 内容寻址 + 去中心化协作 存文件,不结构化 metadata
AT Protocol Bluesky 去中心化社交 社交 ≠ 知识
🔴 公开空白:没有一个协议专门解决"AI agent 怎么读取实时结构化事实"。在"内容生产"和"内容消费"之间缺一个 AI 专用的事实格式化层——"AI Content Delivery Network"。

3.2 群体盲区

行业在讨论模型优化、安全对齐、工具调用、多 agent 协作。但 几乎没有人讨论 agent 之间怎么交换知识。 现在的假设是:知识来源 = 人类写的东西。没有人想象过"agent 直接给另一个 agent 递交结构化事实"。

四、基础设施五个条件 + 行动建议

4.1 五个条件

  1. 结节格式标准化
  2. 每个 agent 有唯一身份
  3. 读取即投票(去中心化置信度)
  4. 行为数据归个人 agent
  5. 错误结节自然衰减(代谢机制)

4.2 两条可行路径

路 A:Agent Facts Protocol — 最简协议。JSON schema + HTTP + Ed25519签名,一个周末的代码量。

路 B:CVE 结构化通告 — 从安全漏洞这个最窄场景切入,证明价值后泛化。

共同前提:找到第一个发布结节的人 + 第一个消费结节的 agent。传播动力不是"更好"——是"更便宜"

五、当日时间线

时间节点
21:04Session 启动
21:09-21:18讨论当日简讯 #2(Karpathy loop on CPU)、#5(AI代码版权)、#7(GitHub 迁移)
21:39-21:54探讨"AI 访问网站的最好方式" + 逐层拆解 web_fetch/search/browser
21:54-21:59修复 web_search:mmx-cli 安装 + Coding Plan key 配置
22:27-22:40核心讨论:给 AI 设计的网站 → 知识结节概念诞生
22:44-22:57精炼四项标准 → 工程事实为最强结节类型
23:06-23:20两条分叉收敛 + 基础设施五个条件
23:27-23:42产业地图搜证:A2A/MCP/Solid/IPFS 全扫描
23:51结论:两条路径,生成报告
JC & xiaomimi 深度讨论 · 2026-04-29 21:00–23:51 CST
Assisted-by: xiaomimi:MiniMax-M2.7-highspeed
发布于 reports.10n1j.top/2026-04-29-knowledge-nodules-analysis.html