LLM 的失语症：神经科学因果推理解析语言模型内部结构

为什么重要：人类神经科学通过"损伤"来推断脑区功能——中风导致失语，就知道那块脑区管语言。这篇论文把同样的因果推理逻辑搬到了 LLM 上，通过切断特定参数来观察症状，找到 Transformer 各组件的专门化功能。这是一种真正的方法论创新，不是简单的 probing 或特征分析。

核心论文解读

Artificial Aphasias in Lesioned Language Models · Nathan Roll et al. · arXiv:2605.16222 · cs.CL

cs.CL

cs.LG

Interpretability

神经科学

论文建立了 LLM 版本的"失语症研究范式"：

损伤（Lesion）操作：将模型参数（attention Q/K/V/O、MLP up/gate/down）置零，模拟人类脑损伤。然后用 Text Aphasia Battery (TAB) 诊断症状。评估了 5 个 1B 规模模型 × 112,426 个输出。
症状谱系发现：LLM 确实出现了完整的人类失语症症状谱——流利性障碍、命名困难、复述障碍等。但分布与人类显著不同。
组件专门化证据：
- Attention vs MLP：Attention 组件（尤其是 K、V）与句法/语义症状强相关；MLP feed-forward 层与词汇丰富度/流畅性更相关
- 深度效应：浅层（early layers）损伤 → 句法和语义症状；中深层（late-middle layers）损伤 → 语音和流畅性缺陷

核心发现：语言处理不是均匀分布在整个模型中的。Attention 机制和 MLP 承担了不同语言功能，且这种分工模式与人类大脑的语言网络有一定的（弱）对应关系，但绝非简单的同构映射。

这篇论文的价值在于方法论而非结论。它把神经科学几百年的因果推论范式系统化地移植到 LLM 研究中，提供了一套可复现的"损伤-症状"分析框架。

对实践者的意义：如果你在做模型压缩（剪枝/量化），这篇论文提供了一个思考框架——哪些参数"切断"了会导致语言能力的哪类退化？这比单纯的困惑度指标更能指导压缩策略。

49 页，13 图，未 peer-reviewed。结论需谨慎，但方法论值得跟踪。代码和模型未知是否开源（论文注释未明确）。