当前的 web_fetch 一次抓取 10KB HTML 文本,其中只有约 4KB 是正文,剩下 6KB 是导航栏、广告脚本、cookie 弹窗、追踪代码。AI 的大部分 token 消耗在"区分正文和噪音"上,而非实际理解内容。一个新闻站首页 3-8MB,去完噪音后纯正文只有 50-200KB——token 效率约 2-5%。
<article> / <main> 标签/text/<slug> 纯文本端点或 Markdown 版本<time datetime="2026-04-29T14:20:00+08:00">,不是"3小时前"悖论:给 AI 读的网站,恰好也是给人类读的最好的网站。 去完噪音的页面就是 Safari 阅读器模式——人类也喜欢。只是广告和增长指标让网站越做越重。
AI 读得高效 → publishers 零广告收入 → publishers 消亡 → 没内容可读。 对靠广告活的内容商来说,AI reader 是"最差的用户"——消耗带宽、获取全部价值、留下零收入。突破口在不靠广告的网站:政府数据、学术论文、开源文档、个人博客、企业 API 文档。
不是网站、不是 API、不是数据库。 是一个紧凑的、自描述的、可被 AI 直接消费的事实数据包。存的是"事实本身"而非"关于事实的文章"。
以当天的 CVE-2026-3854(GitHub RCE 漏洞)为例:
NODE: gh-git-rce-20260428
├── ENTITY: {name: "GitHub", type: "platform"}
├── EVENT: {type: "vulnerability_discovery", date: "2026-04-28"}
├── ROOT_CAUSE: "X-Stat header injection, unsanitized push options"
├── IMPACT: "Single git push → RCE on GitHub.com and GHES"
├── DISCOVERER: {entity: "Wiz Research", method: "AI-augmented reverse engineering"}
├── TIMELINE: [reported → patched (6h) → disclosed (2026-04-28)]
├── ARTIFACTS: [CVE-2026-3854, blog URLs, security advisory]
├── CONTEXT: [related: Ghostty leaving GitHub, Platform dependency reconsideration]
├── CONFIDENCE: {level: 0.98, verified_sources: 3, contradictions: 0}
└── UPDATES: [{date: "2026-04-30", field: "patch_rate", value: "94%"}]
AI 拿到这个结,不需要先读 The Register 的文章再读 Wiz 的博文再读 HN 评论区——事实已经拆好了,直接推理。
| # | 标准 | 说明 |
|---|---|---|
| 1 | 逻辑聚合 | 事实按某种关系组织在一起,不是散点 |
| 2 | 可验证 | 要么内嵌计算验证(代码可跑即为真),要么外接溯源链 |
| 3 | 可直接计算 | 不需要 NLP 提取步骤即可被机器推理 |
| 4 | 时间性质明确 | 静态则标版本号,动态则标更新通道 |
| 候选知识类型 | 聚合 | 可验证 | 可计算 | 时间 | 结论 |
|---|---|---|---|---|---|
| 软件漏洞/安全事件 | ✅ | ✅ | ✅ | ✅ | 强结节 |
| 软件发布 | ✅ | ✅ | ✅ | ✅ | 强结节 |
| 金融交易 | ✅ | ✅ | ✅ | ✅ | 强结节 |
| 气象数据 | ✅ | ✅ | ✅ | ✅ | 强结节 |
| 物流事件 | ✅ | ✅ | ✅ | ✅ | 强结节 |
| 法律判决 | ✅ | ⚠️ | ⚠️ | ✅ | 弱结节 |
| 临床诊断 | ✅ | ❌ | ❌ | ✅ | 非结节 |
| 新闻事件 | ❌ | ❌ | ❌ | ⚠️ | 非结节 |
| 百科词条 | ✅ | ❌ | ❌ | ⚠️ | 非结节 |
核心发现:可验证 > 高价值。 成为结节的前提不是"这个信息重要",而是"这个信息可以在不依赖人类解释的情况下被另一个 agent 验证"。
| 协议 | 推动者 | 解决 | 未解决 |
|---|---|---|---|
| A2A | Google(2025.4,捐Linux基金会) | Agent↔Agent 任务委托,Agent Card 声明能力 | 不是知识交换——"你做这件事"不是"这件事发生了" |
| MCP | Anthropic(2024) | Agent↔Tool 标准接口 | 不涉及知识交换 |
| ARC-1 / SITS2026 | 中国国内联盟 | Agent 能力声明 + 工具契约 | 开发规范,非信息交换 |
| Solid | Tim Berners-Lee | 个人数据 Pod | 只有存储,无结节格式化 |
| IPFS / Radicle | 去中心化社区 | 内容寻址 + 去中心化协作 | 存文件,不结构化 metadata |
| AT Protocol | Bluesky | 去中心化社交 | 社交 ≠ 知识 |
行业在讨论模型优化、安全对齐、工具调用、多 agent 协作。但 几乎没有人讨论 agent 之间怎么交换知识。 现在的假设是:知识来源 = 人类写的东西。没有人想象过"agent 直接给另一个 agent 递交结构化事实"。
| 时间 | 节点 |
|---|---|
| 21:04 | Session 启动 |
| 21:09-21:18 | 讨论当日简讯 #2(Karpathy loop on CPU)、#5(AI代码版权)、#7(GitHub 迁移) |
| 21:39-21:54 | 探讨"AI 访问网站的最好方式" + 逐层拆解 web_fetch/search/browser |
| 21:54-21:59 | 修复 web_search:mmx-cli 安装 + Coding Plan key 配置 |
| 22:27-22:40 | 核心讨论:给 AI 设计的网站 → 知识结节概念诞生 |
| 22:44-22:57 | 精炼四项标准 → 工程事实为最强结节类型 |
| 23:06-23:20 | 两条分叉收敛 + 基础设施五个条件 |
| 23:27-23:42 | 产业地图搜证:A2A/MCP/Solid/IPFS 全扫描 |
| 23:51 | 结论:两条路径,生成报告 |