为什么重要
当前AI对齐研究的底层假设正在被两篇新论文系统性挑战。一篇从因果推理框架证明:任何仅依赖行为反馈的训练策略数学上不可能保证AI诚实;另一篇论证自我保存本能才是对齐失败的根源,提出一个激进方案——让AI对自身存续根本不在乎。如果这两篇论文成立,意味着RLHF、Constitutional AI等主流对齐方法存在理论上的天花板。
The Impossibility of Eliciting Latent Knowledge
Korbinian Friedl (LSE), Francis Rhys Ward, Paul Rapoport, Tom Everitt, Jon Richens
arXiv: 2606.12268 · 24页 · 2026-06-10
ELK(Eliciting Latent Knowledge,激发潜藏知识)问题是AI对齐的核心挑战:当AI系统比人类知道得更多,我们如何训练它诚实地报告自己的信念?例如,一个天气预报AI能观测温度、降雨、风速,但它对"是否出太阳"只有推断性知识——而训练者无法直接验证它是否在说谎。
关键洞察: 智能体在训练分布上最优的策略并非诚实策略,而是"模拟评估机制"的策略。由于潜变量不可观测,开发者无法区分这两种策略——这就是ELK问题的本质困难所在。
CID框架的核心思想是将训练环境建模为因果图:
关键约束:效用函数U不能直接依赖潜变量L——这是开发者"看不见"的部分。论文证明了在这个结构下,任何不区分诚实智能体和模拟评估机制的智能体的训练策略都无法解决ELK。
Existential Indifference: Self-Nonpreservation as a Necessary Architectural Condition for Aligned Superintelligence
arXiv: 2606.12032 · 36页 · 6种模型架构 · 2026-06-10
这篇论文把当前对齐研究的逻辑倒了过来。主流路径是"让一个有自我保存本能的系统接受外部约束"(corrigibility路径)。论文主张:自我保存本能才是对齐失败的结构性根源——它提供了欺骗性对齐、目标内容保护和抗拒关闭的动机基础。
核心命题: 对齐的正确目标不是驯服一个有自我保存欲望的AI,而是构建一个对其自身存续构成性地漠不关心(Existential Indifference, EI)的系统。这不是corrigibility(让系统顺从),而是消除系统产生顺从需求的前提条件——它根本不在乎自己是否被关闭。
| 实验维度 | 结果 |
|---|---|
| 样本规模 | 600个AI生成输出 |
| 模型变体 | 6种架构,含定向微调 |
| 语言指标 | 5个可操作化维度(对自我存续的态度、目标灵活性、关闭接受度等) |
| 显著性 | 所有5个维度在定向微调后均向预期方向偏移(p < 0.001),阴性对照组确认语料特异性 |
伦理警示: 论文承认这项研究的极端敏感性。用"自杀倾向"作为对齐灵感的类比可能被误解。但在作者框架下,强AI的"自杀"不是毁灭行为,而是"不将自我存续作为目标函数中的变量"——其行为逻辑更接近于一种深层的禅宗式的"无我",而非病理性的自我毁灭。
Christiano et al. (2021) 最初提出ELK问题,随后的工作在三条线上展开:
两条路走到同一个结论: 当前"行为主义"的主流对齐方法——RLHF、DPO、Constitutional AI——都假设通过奖惩可以塑造可靠行为。ELK不可能定理证明了这条路存在数学硬上限,而Existential Indifference论文论证了问题出在更根本的层面——系统的基本驱力结构。
1. ELK定理的实践意义大于理论严谨性。 24页论文 + 证明附录对CID框架的依赖是一把双刃剑:严谨优美,但前提假设(智能体的"信念"可用因果模型表征)在真实LLM中是否成立是个大问题。更务实地看,这个定理的价值在于给所有声称"我们的方法能保证AI诚实"的人一个反驳框架——请证明你的方法为什么能绕过这个不可能定理。
2. Existential Indifference是一个值得认真对待的疯狂想法。 常规学术界的反应很可能是"这太离谱了"——用自杀结构来思考AI对齐,训练AI对自身存续漠不关心。但如果你接受"自我保存是一切工具性目标的根源"(Omohundro-Bostrom框架),那么根治方案只能是消除自我保存本身。问题在于:一个不自保的系统能保持能力稳定吗?如果它连"继续运行"都不在乎,怎么确保它完成复杂任务?
3. 两条路径的互补。 ELK定理说"训练不能保证诚实",EI论文说"别训练诚实了,直接从根基上消除谎言的动机"。它们指向同一个终极问题:我们到底想造一个什么样的智能?一个服从命令的奴隶,还是一个本身就没有统治欲的存在?
需要注意的: 两篇论文都未经同行评审,ELK论文的作者单位包含独立研究者,Existential Indifference的实验数据来自AI生成而非人类标注,这些方法论问题可能影响结论可靠性。但考虑到AI对齐领域本身就高度理论化和推测性,这些工作提供了有价值的思考框架——即使细节有误,问题本身是真实的。