LLM 内部表征的几何结构与可解释性

为什么重要：2026 年 6 月，LLM 研究出现了一条清晰汇聚的暗线——把"激活向量"看成几何对象而非数值向量。三篇新论文分别从激活 steering、注意力架构、token 本质三个角度切入，发现模型行为与底层几何结构（正交性、群结构、范数守恒）紧密耦合。这意味着对 LLM 的理解和控制正在从"经验调参"转向"几何设计"。

核心论文解读

① GEMS：几何约束激活多语义叠加 cs.CL 开源

论文：GEMS: Geometric Constraints Enable Multi-Semantic Superposition in LLMs · Yu Deng · 2026-06-18

问题：现有激活 steering（activation steering）只能在单方向注入语义；多方向叠加直接叠加向量会导致模型坍塌，GSM8K 准确率从 92% 跌到 4%。

关键发现：作者把"坍塌"分解为两个独立的几何失效来源——

分布偏差（distributional deviation）：加性扰动在层间累积范数，激活偏离训练分布
方向干扰（directional interference）：非正交语义向量叠加时互相抑制

方法 GEMS：无训练的激活干预，映射每个失效源到一个几何约束——

范数守恒的加权叠加 + 目标注意力路径注入（解决分布偏差）
实时正交化（解决方向干扰）

效果：GSM8K 上同时注入 3 个非数学方向，准确率保留 98%（基线 92%），未约束时跌至 4%；Wikitext-2 PPL 仅上升 2.2%。3B 到 31B 跨架构迁移有效。

局限性：仅在"语义方向已知"的场景下有效；自动发现有效 steering direction 仍是开放问题。30 页 / 20 表的小规模消融研究，工业级模型（>100B）尚未验证。

② HydraHead：Head 级功能异质性驱动的混合注意力 cs.CL 架构创新

论文：HydraHead: From Head-Level Functional Heterogeneity to Specialized Attention Hybridization · Zhentao Tan 等 · 2026-06-18

问题：全注意力（FA）的二次复杂度是长上下文瓶颈；混合注意力（FA + Linear Attention）是主流解法，但开源方案都在层粒度切换——把所有 head 一起切换。

关键发现：通过可解释性分析，作者观察到——

层之间是块状功能相似（block-wise）
同一层内的head 之间功能显著分化（head-level heterogeneity）

方法 HydraHead：把混合粒度从"层"降到"head"轴——

可解释性驱动的 head 选择：识别"检索关键 head"，只对这些 head 保留 FA，其余用 LA
尺度归一化融合模块：弥合 FA/LA 输出的分布差距

贡献：三阶段迁移 pipeline（参数复用 + 蒸馏），训练开销最小化。

局限性：head 选择依赖可解释性分析的离线扫描；动态识别（推理时根据输入切换）尚未实现。FA/LA 融合模块引入额外参数和归一化开销，长上下文极端场景的收益需要重新评估。

③ Token 是群元素：Lie 代数上的注意力机制 cs.LG 基础理论

论文：The Token Is a Group Element: On Lie-Algebra Attention over Matrix Lie Groups · Przemyslaw Musialski · 2026-06-18

核心命题：把 token 直接放在矩阵 Lie 群 G 上——token g_i 是"裸变换"，没有特征载荷，也没有外部表示 ρ(g) 携带它。

理论突破：

相对几何是规范的：g_i⁻¹g_j，成对不变式 w_ij = log(g_i⁻¹g_j) 是内在的而非人为设计的
等变性是平凡的：对角 G-作用下自动成立
注意力分数有闭式：s_ij = -||log(g_i⁻¹g_j)||²_λ / τ——基于分块加权 Frobenius 内积的规范邻近核

对比既有方案：

方法	分数核	是否需要不可约表示	能处理的群
不可约表示派（irrep）	球谐 × Clebsch-Gordan	是	排除仿射全帧群
满射指数派（surjective exp）	学习的 MLP	否	排除非紧非阿贝尔仿射群
Lie-Algebra Attention	闭式代数范数	否	任何矩阵 Lie 群，含 SE(2)/SO(3)/Aff(2)

实验：SE(2)、SO(3)、Aff(2) 三个序列补全任务——闭式分数在 SE(2) 上匹配并超越学习的 MLP 核，参数少 50-80 倍；向量 token 基线破坏不变性达 5-12 个数量级。

局限性：目前仅在几何敏感任务（旋转、平移、仿射）上验证；尚未迁移到 NLP 大规模预训练。19 页 / 3 图的初步工作，工业可用性待验证。"裸变换无特征载荷"的设计哲学需要重新思考 token embedding 的角色。

DiffusionGemma 的可解释性：变量透明度与算法透明度 cs.LG Anthropic 团队

论文：How Transparent is DiffusionGemma? · Joshua Engels, Neel Nanda 等（Anthropic） · 2026-06-18

把"可解释性"拆成两个分量——变量透明度（能否理解中间计算状态的快照）和算法透明度（能否用快照重建推理过程）。

DiffusionGemma 的连续潜空间让串行深度看起来比自回归 Gemma 4 高 28.6 倍——表面看更不透明。但通过稀疏交叉编码器 + 注意力 sink 分析，作者发现 DiffusionGemma 实际上在潜空间里保存了更结构化的中间状态，最终能基于快照重建推理过程。

意义：这是对"扩散模型不透明"这一直觉的实证反驳，给"扩散 LLM"的安全性研究提供基础。

我的判断

这一批论文让我看到 LLM 研究的几何化转向正在成型——三个不同切面（激活叠加、注意力架构、token 本质）都在用几何语言重新描述原本模糊的经验现象。这不是巧合：

3. 工程落地的优先级：

短期（1-3 个月）：GEMS 最容易落地——无训练、对现有模型即插即用，可以直接拿来做 persona 切换 / 安全约束的多方向叠加
中期（3-6 个月）：HydraHead 需要重新训练；适合在长上下文模型（>128K）的训练阶段引入
长期（>6 个月）：Lie-Algebra Attention 是基础理论突破，要真正影响 LLM 主流架构，需要等"token 是群元素"的设计哲学被社区接受