

归因图用于描述模型在特定输入提示下生成目标词元输出时所经历的推理步骤。
归因图的边表征节点间的线性影响关系,节点代表以下对象:
-
激活的特征 -
输入提示中的词元嵌入 -
重构误差 -
输出逻辑值
每个特征的活动强度由其输入边的权重之和决定。

归因图展示了特征如何在特定输入提示下相互作用以生成模型输出。
而特征在所有上下文环境中交互的全局图景更值得关注,全局交互由模型权重决定:
相邻层神经元间的直接影响就是它们之间的连接权重;若神经元间隔较远,则影响会通过中间层传递。
这本质上是笔者在降低大模型幻觉的必由之路中描述的 Transformer视角下的范畴中采样,即在复杂高维的对象米田嵌入图中的采样路径。



“在外部感官输入下(被提示置于某种上下文),大模型内部将限定在相应的高维语言概率空间的子空间内推理;推理是在子空间中采样,类比时跨范畴采样;
采样不断进行,基于内部概率化了的世界模型(预训练获得的先验),针对感官输入(提示),做变分推断,最小化自由能,获取最佳采样分布q*,作为对导致感官输入的外部后验的预测。”
多语言电路,研究发现大模型混合使用了“特定于语言的”,和“抽象的、独立于语言的”电路,更大的模型中,“抽象的、独立于语言的”成分更突出。

这非常贴切的印证了笔者在 DeepSeek R1 & R2 技术原理 中,对大模型中不同层次/尺度语言处理机制的描述:

人类与大模型的语言体系中具有共通的三层结构:
-
自下而上,基础“信息概率分布”处理体系;
-
自然语言如语音或词句文章;
-
符号语言如代码、数学公式等。
而推理不过是在LLM构建的高维概率语言空间里,对信息概率分布采样做变分;
这个过程可以映射到不同的上层自然语言,以及对应的语音,甚至进一步映射到某种符号语言 - 代码或数学公式;
而抽象的符号语言也可以用自然语言描述,从而进一步转换为对信息概率分布的处理过程。