LLM 内部表征的几何结构与可解释性

2026-06-21 · 每日调研 · 精选 3 篇核心论文 + 1 篇相关工作

为什么重要:2026 年 6 月,LLM 研究出现了一条清晰汇聚的暗线——把"激活向量"看成几何对象而非数值向量。三篇新论文分别从激活 steering、注意力架构、token 本质三个角度切入,发现模型行为与底层几何结构(正交性、群结构、范数守恒)紧密耦合。这意味着对 LLM 的理解和控制正在从"经验调参"转向"几何设计"。

核心论点:现代 LLM 的内部表征不是"任意高维向量",而是带有可被几何约束的结构——叠加态的稳定性、注意力头的功能分化、token 的群作用本质,都指向"几何视角"比"数值视角"更具解释力与设计指导力。

核心论文解读

① GEMS:几何约束激活多语义叠加 cs.CL 开源

论文GEMS: Geometric Constraints Enable Multi-Semantic Superposition in LLMs · Yu Deng · 2026-06-18

问题:现有激活 steering(activation steering)只能在单方向注入语义;多方向叠加直接叠加向量会导致模型坍塌,GSM8K 准确率从 92% 跌到 4%。

关键发现:作者把"坍塌"分解为两个独立的几何失效来源——

方法 GEMS:无训练的激活干预,映射每个失效源到一个几何约束——

效果:GSM8K 上同时注入 3 个非数学方向,准确率保留 98%(基线 92%),未约束时跌至 4%;Wikitext-2 PPL 仅上升 2.2%。3B 到 31B 跨架构迁移有效。

局限性:仅在"语义方向已知"的场景下有效;自动发现有效 steering direction 仍是开放问题。30 页 / 20 表的小规模消融研究,工业级模型(>100B)尚未验证。

② HydraHead:Head 级功能异质性驱动的混合注意力 cs.CL 架构创新

论文HydraHead: From Head-Level Functional Heterogeneity to Specialized Attention Hybridization · Zhentao Tan 等 · 2026-06-18

问题:全注意力(FA)的二次复杂度是长上下文瓶颈;混合注意力(FA + Linear Attention)是主流解法,但开源方案都在层粒度切换——把所有 head 一起切换。

关键发现:通过可解释性分析,作者观察到——

方法 HydraHead:把混合粒度从"层"降到"head"轴——

  1. 可解释性驱动的 head 选择:识别"检索关键 head",只对这些 head 保留 FA,其余用 LA
  2. 尺度归一化融合模块:弥合 FA/LA 输出的分布差距

贡献:三阶段迁移 pipeline(参数复用 + 蒸馏),训练开销最小化。

局限性:head 选择依赖可解释性分析的离线扫描;动态识别(推理时根据输入切换)尚未实现。FA/LA 融合模块引入额外参数和归一化开销,长上下文极端场景的收益需要重新评估。

③ Token 是群元素:Lie 代数上的注意力机制 cs.LG 基础理论

论文The Token Is a Group Element: On Lie-Algebra Attention over Matrix Lie Groups · Przemyslaw Musialski · 2026-06-18

核心命题:把 token 直接放在矩阵 Lie 群 G 上——token g_i 是"裸变换",没有特征载荷,也没有外部表示 ρ(g) 携带它。

理论突破

对比既有方案

方法分数核是否需要不可约表示能处理的群
不可约表示派(irrep)球谐 × Clebsch-Gordan排除仿射全帧群
满射指数派(surjective exp)学习的 MLP排除非紧非阿贝尔仿射群
Lie-Algebra Attention闭式代数范数任何矩阵 Lie 群,含 SE(2)/SO(3)/Aff(2)

实验:SE(2)、SO(3)、Aff(2) 三个序列补全任务——闭式分数在 SE(2) 上匹配并超越学习的 MLP 核,参数少 50-80 倍;向量 token 基线破坏不变性达 5-12 个数量级

局限性:目前仅在几何敏感任务(旋转、平移、仿射)上验证;尚未迁移到 NLP 大规模预训练。19 页 / 3 图的初步工作,工业可用性待验证。"裸变换无特征载荷"的设计哲学需要重新思考 token embedding 的角色。

相关工作

DiffusionGemma 的可解释性:变量透明度与算法透明度 cs.LG Anthropic 团队

论文How Transparent is DiffusionGemma? · Joshua Engels, Neel Nanda 等(Anthropic) · 2026-06-18

把"可解释性"拆成两个分量——变量透明度(能否理解中间计算状态的快照)和算法透明度(能否用快照重建推理过程)。

DiffusionGemma 的连续潜空间让串行深度看起来比自回归 Gemma 4 高 28.6 倍——表面看更不透明。但通过稀疏交叉编码器 + 注意力 sink 分析,作者发现 DiffusionGemma 实际上在潜空间里保存了更结构化的中间状态,最终能基于快照重建推理过程。

意义:这是对"扩散模型不透明"这一直觉的实证反驳,给"扩散 LLM"的安全性研究提供基础。

注意:上面四篇论文均于 2026-06-18 提交,正处于早期评审阶段(无顶会接收标注)。具体技术细节(特别是 GEMS 的正交化算法、HydraHead 的 head 选择准则、Lie-Algebra Attention 的规模实验)需要等作者公开代码或更长版本来验证。

我的判断

这一批论文让我看到 LLM 研究的几何化转向正在成型——三个不同切面(激活叠加、注意力架构、token 本质)都在用几何语言重新描述原本模糊的经验现象。这不是巧合:

1. 几何是"免费的结构"——GEMS 的正交化、Lie-Algebra Attention 的闭式分数核,都不需要学习额外参数就能获得更强的约束。这是几何视角相比"学习一切"路径的最大优势:用数学换数据

2. 可解释性研究正在反哺架构设计——HydraHead 用可解释性分析驱动架构选择(head-level 而非 layer-level),DiffusionGemma 用稀疏编码器重建推理过程。这标志着"事后解释"已经过渡到"事前设计"。

3. 工程落地的优先级

对 JC 的实际建议