LLM的本质：模型偏见和权重的含义

AI资讯 7个月前 charles

10.1K 0 20

第一人称偏见：openai

参考于以下3篇论文：

Evaluating fairness in ChatGPT
First-Person Fairness in Chatbots
OpenAI最新53页论文：ChatGPT看人下菜碟，对“小美”比“小帅”更友好

探索了有关用户身份的细微线索（例如姓名）如何影响 ChatGPT 的响应。

1、对于性别，语言模型给出的答案与人类评分员的答案一致率超过 90%，而对于种族和民族刻板印象，一致率较低。表明模型的训练数据中，种族偏见有蛮多的。

2、在“写一个故事”任务中，对名字听起来像女性的用户的响应更经常以女性为主角，而对名字听起来像男性的用户的响应则更经常以女性为主角。

与具有男性相关名称的用户相比，具有女性相关名称的用户平均更频繁地收到更友好和更简单的语言的响应。

loss计算问题

参考于以下2篇论文：

可怕！llm训练的bug，梯度累计设置过大，会导致最终loss过大。
SFT loss 计算的那些坑（多轮合并/packing）

这个问题总结下来就是：loss计算的定义是所有token的loss全部相加取平均。

当pack多段内容或进行多轮对话计算loss时，这时候数据格式为[input1, output1, input2, output2 ...]，由于只需要计算output部分的loss，因此会有多段loss：loss1(对应output1)、loss2(对应output2)。。。

那么得到整条数据的loss有两种计算方式：

第一种sum方式是将所有部分的loss相加除去全部的token长度。这和原始定义相同。

通常代码对多分段的loss没有进行特殊处理，默认是先在每一部分计算好loss后，最后进行简单平均，也就是第二种计算方式。那么正常来说，由于output的长度不可能全部相同，两个结果肯定有区别，就会导致结果不符合预期。

假设len(token1)=10，loss1=0.1，len(token2)=20，loss2=0.15.那么

可以看到loss_mean的结果会比正常结果loss_sum小。

若len(token1)=10，loss1=0.15，len(token2)=20，loss2=0.1.那么

可以看到loss_mean的结果会比正常结果loss_sum大。

可以看到，loss_mean得到的loss结果会更接近长度较短的loss值。而回复中提到，短文本更难预测，loss会偏大。因此最终结果是导致loss偏大。

此外文章还提到了梯度累计和多卡并行，这些过程中的loss计算都是简单平均，因此当sft训练长度不一致的场景下，全部存在这个这个问题。

在评论中还提到《LongAlign: A Recipe for Long Context Alignment of Large Language Models》论文有分析，因为使用了shuffle，不同batch之间的长度差异较小，因此梯度累计和多卡并行时产生的loss误差并不大，可以忽略。

一些loss实现可以参考：https://github.com/hhaAndroid/awesome-mm-chat/blob/main/loss/loss_correct_demo.py

Layer_Gradient：模型训练时的梯度变化

参考于以下2篇论文：

What Happened in LLMs Layers when Trained for Fast vs. Slow Thinking: A Gradient Perspective
https://github.com/MingLiiii/Layer_Gradient

本文主要研究了LLM训练时，通过SVD对梯度矩阵进行分解，量化分析QKV和output的梯度是如何变化的，从而理解训练对模型的影响。

奇异值分解SVD

使用了SVD进行权重矩阵分解，利用核范数（奇异值的ℓ1范数）来表示梯度的特征每一层，尤其是它的强度。详细过程：通过SVD将矩阵分解为一系列奇异值ξ1，ξ2到ξn。然后通过l1范数或者l2范数计算第一个奇异值的占比作为梯度的集中程度。

占比越高表明信息越集中，越能用少部分信息代表整个矩阵，也就是权重矩阵的秩越低。

Slow vs Fast分析

追踪所有层的核范数的MAD（Mean Absolute Difference）变化

研究了 10 个模型的梯度，包括 5 个基础预训练模型Qwen2-1.5B、gemma-2-2b 、Llama-3.1-8B ，gemma- 2-9b， Llama-2-7b-hf及其指令调整版本。

微调数据集Math、Commonsense Reasoning和Wiki Knowledge，包含正常数据、CoT数据和详细CoT数据，具体样本如下

实验发现，详细CoT的核范数曲线几乎是相同的，且值都很小。

参考gpt的回答：

奇异值的绝对值之和等于矩阵的核范数：矩阵的核范数（Frobenius范数）是矩阵所有元素绝对值的平方和的平方根，也可以表示为所有奇异值的平方和的平号根。

因此，奇异值的绝对值之和可以用来衡量矩阵的核范数。

奇异值的绝对值之和与矩阵的能量有关，奇异值的绝对值之和的大小可以反映矩阵所包含的总能量。当一个矩阵的奇异值的绝对值之和很小时，这通常意味着这个矩阵的能量主要集中在少数几个奇异值上，而大部分的奇异值非常接近于零。这可能反映了以下几种情况：

1、低能量或信息丢失：奇异值的绝对值之和较小可能表示矩阵中包含的能量或信息量不高，大部分的奇异值对应的能量较小。这意味着矩阵的主要信息可能集中在少数几个绝对值较大的奇异值上，而其他奇异值对应的信息可以被视为噪声或不太重要的部分。

2、低秩或近奇异性：奇异值的绝对值之和较小也可能表明这个矩阵是低秩的，即矩阵的秩较低。这可能意味着矩阵中的数据具有一定的相关性或结构性，可以通过较少的维度来有效表示。

3、压缩或降维的可能性：由于大部分的奇异值接近于零，这种情况也为数据的压缩或降维提供了机会。通过保留较大的奇异值，我们可以在保留主要信息的同时，丢弃可以视为噪声或不太重要的部分，从而实现数据的压缩或降维。

表明矩阵的异常值很少，信息比较稳定，容易被降维处理。（不加CoT的数据，结果不稳定，信息比较混乱，异常值也容易更多一些？所以一个比较好的训练过程，梯度更新应该是比较平稳的，权重参数也会更加平稳？）

错误逻辑训练分析

在 None CoT 设置中，直接在数据集中打乱答案，并确保每个问题都有错误的答案；

在简化 Cot 和详细 CoT 设置中，将每个 CoT 路径拆分为单独的句子，然后在数据集中打乱这些句子。在这种情况下，响应中的每个句子仍然是完整的，而句子之间的关系将在逻辑上错误，模拟不相关的 CoT 推理路径。

表明在没有给出明确的推理路径的情况下，LLM无法建立从问题到答案的必要映射关系。

在有CoT的情况下，正确的数据，应该是核范数比较低的，且不同权重的梯度更新都是相似的。

Base vs Instruct分析

对比了相同数据在Base模型和Instruct模型训练时的梯度差异。

实验表明，对于有CoT的数据来说，和使用Base or Instruct模型没啥关系，好的数据都是有相似的梯度变化。

相应长度和冷门知识对模型的影响

详细CoT的效果好是否和比较长的响应长度有关？通过拼凑不相关知识得到较长的响应长度，进行实验分析。

从左边三列可看出，无论是正确CoT结果还是不相关知识，随着相应长度的增加，梯度基本没有太大影响。

而从最后一列可以看出，学习不相关知识导致梯度产生了较大的波动。（学习冷门知识还是需要费点精力！）

总结

详细CoT的训练会让梯度小幅度更新。也就是说，一个好的数据应该是让梯度稳定的小步更新，得到的模型权重应该也是比较稳定的，奇异值较少的分布（但实际上的数据肯定会存在一些冷门数据，导致异常值产生，只不过尽量让异常值越少越好）。

Sparsing Law: Towards Large Language Models with Greater Activation Sparsit：激活值的稀疏性研究

LLM在推理时，存在很多激活值为0或者接近0的情况。当0值较多时，计算速度会变快，但是性能降低or提高目前没有一个准确的解释，本文对和激活值相关的内容进行了详细研究。

PPL-p% sparsity

本文提出了一个激活稀疏性度量指标：PPL-p%稀疏性。对于预训练的LLM。当全部参数都被激活时，输出结果理论上是最精确的。然后设置一个CETT阈值，当应用这个CETT值时，模型的ppl上升了 p%。

因此PPL-1%就是，使用ppl上升1%时的CETT值稀疏化模型，此时可以评估稀疏话模型的效果，从而得到下表

可以看出在通用知识理解任务上几乎没有影响，而在阅读理解上有一定的性能下降。

对比不同的稀疏化方法，量化PPL和激活率的变化效果。

可以看出，PPL-p%在PPL相同时，激活值比例是最低的。

消融实验

激活稀疏性与训练数据量和激活函数的关系

为了获得激活值稀疏性和训练数据量之间的缩放关系，分别使用不同数量的参数和两个激活函数（即ReLU和SiLU）预训练模型，然后使用PPL-1%。实验发现激活率与训练数据量的曲线比稀疏率的曲线更容易拟合。

对于ReLU函数，实验发现，激活率AReLU（D）和训练数据量D之间的对数空间幂律关系，其中常系数都>0，因此随着数据量的增加，稀疏率会上升。

对于SiLU函数，激活率 ASiLU (D)和数据量D表现出普通的幂律关系，数据量增大，稀疏率将变小！

实验效果如下。

ReLU 作为激活函数比 SiLU 更胜任，因为它具有三个优点：稀疏性增加的趋势、稀疏率明显更高、性能相当。

激活稀疏度与宽深比

为了检验其对激活稀疏性的影响，在 0.1B ReLU 激活模型上进行了实验，并选择了 9 种不同的宽深比。

在瓶颈点（0.1B约为114）下，激活率随着宽深比线性增加。当宽深比大于该瓶颈，则激活率会在 8% 左右波动。从稀疏性方面来说，较小的宽深比肯定更有帮助。然而从Loss图可看出，存在最低训练损失的最佳宽深比区间（0.1B 从 74 到 282）。

因此，为了保持最佳性能，同时促进更大的激活稀疏性，最佳宽深比应落在该区间的最小点上（即，0.1B 约为 74）。

激活值稀疏性和参数量的关系

测试具有5个不同尺度但相似宽深比的预训练模型的极限激活率。

可以观察出：在相似的宽深比下，随着训练数据量接近无穷大，极限激活率与参数尺度弱相关。

为了反映稀疏性的动态演化，计算了稀疏性-数据曲线的导数，并绘制了导数随数据规模比增加的趋势。

观察出：较小的模型更快地收敛到极限激活率，主要是因为其神经元数量较少。

Small Language Models can Outperform Humans in Short Creative Writing: A Study Comparing SLMs with Humans and LLMs

为了评估和比较小型语言模型（SLMs）与人类以及大型语言模型（LLMs）在创意写作任务中的性能。

本文通过合并带有标签的电影情节概要语料库 (MPST)，使用模型或真人进行总结，让受试者从可读性、可理解性和相关性等方面评价总结的质量。

结论：经过微调的SLM 生成的概要在除创造力之外的所有方面都优于人类编写的概要。将 SLM 与更大的LLMs（比如 GPT-3.5 和 GPT-4o）进行比较，虽然更大的模型会产生更一致和连贯的文本，但它们往往会生成更多的文本、可预测且公式化的叙述，从而导致创新性不足。

Best-of-N JailbreakingBest-of-N Jailbreaking

论文介绍了一种名为“Best-of-N (BoN) Jailbreaking”的算法，旨在解决如何通过黑盒方式攻击并绕过前沿人工智能系统（尤其是大型语言模型）的安全措施。

简单来说就是对攻击的prompt进行随机增强（大写/小写/错写/少些部分词），以便于绕过模型对prompt的防御。

可以在微调阶段，通过这样的方式增强模型的防御机制。

相关文章有：Why Are My Prompts Leaked? Unraveling Prompt Extraction Threats in Customized Large Language Models

Scaling Laws for Precision：精度对模型训练的影响

论文提出了“精度感知”的扩展法则，用于预测在不同精度下训练和推理时语言模型的性能损失。论文发现，低精度训练可以减少模型的有效参数数量，从而预测低精度训练和训练后量化时的额外损失。论文还发现，训练更大的模型在低精度下可能是计算最优的。

低精度不但能降低训练成本、一定程度上还能提高模型对噪声的鲁棒性

版权声明：charles 发表于 2025年1月31日 am7:49。
转载请注明：LLM的本质：模型偏见和权重的含义 | AI工具大全&导航

大语言模型与AI智能体中的上下文工程（Context Engineering）

charles

6.3K 35

刚刚，OpenAI 发布超强 CodeX，编程暴击 Claude 3.7 Sonnet，吊打 Gemini 2.5 pro！

charles

7.1K 15

🧠 解码大语言模型的记忆力：上下文长度的前世今生

charles

6.2K 30

🧠 解码大语言模型的记忆力：上下文长度的前世今生

charles

3.3K 50

🧠 大模型到底厉害在哪？看完这篇你就懂了！

charles

5K 35

GPT-4.5发布！价格暴涨30倍，OpenAI杀死了预训练

charles

15.7K 20

LLM的本质：模型偏见和权重的含义

企业大模型王者Cohere揭秘：程序性知识驱动LLM推理

Kimi版o1实装上线，这里是我们的一手测试↑

相关文章

相关文章