DeepSeek 背后的数学:GRPO

AI资讯 2个月前 charles
3K 0

 

GRPO 的数学原理其实就像一套高效的评分系统,它帮助 DeepSeek 模型在一组回答中迅速找到最佳答案。通过比较每个回答与其他回答的优劣,模型能清楚地知道哪些回答更准确、更符合要求,从而不断调整和优化自己的策略。

这样一来,就不需要额外的评估器,既节省了计算资源,又能在实际应用中不断提高推理能力。

一、GRPO 的基础

1. 什么是 GRPO?

Group Relative Policy Optimization(GRPO) 是一种专为提升大语言模型推理能力设计的强化学习(RL)算法。与传统方法不同,GRPO 不依赖外部评估器(critic)来指导学习,而是通过对比一组回答之间的相对优劣来优化模型。这种相对评估机制不仅简化了训练过程,还大幅提高了效率,特别适用于需要复杂问题求解和长推理链的任务。

2. 为什么需要 GRPO?

传统强化学习方法(如 Proximal Policy Optimization(PPO))在大语言模型推理任务中存在以下挑战:

依赖 Critic 模型

  • • PPO 需要一个额外的 critic 模型来估算每个回答的价值,这会使内存和计算成本翻倍。
  • • Critic 模型的训练过程复杂,容易出错,尤其是在涉及主观或细微评估的任务中。

高计算成本

  • • RL 训练通常需要大量计算资源来不断评估和优化模型的输出。
  • • 在大规模 LLM 上应用这些方法会进一步加剧计算成本。

可扩展性问题

  • • 绝对奖励评估在处理多样化任务时存在困难,导致泛化能力受限,难以适用于不同的推理场景。

GRPO 如何应对这些挑战?

  1. 1. 无需 Critic,降低成本 GRPO 通过组内回答比较消除了对独立评估器的依赖,从而大幅降低了计算资源的需求。
  2. 2. 相对评估机制 它通过对比同一组回答的表现来衡量质量,而非单独打绝对分,这使得模型能够更直观地识别哪些回答更优。
  3. 3. 高效训练,易于扩展 聚焦于组内优势的计算,使得奖励估计过程更简单,进而使训练过程既高效又便于扩展到大规模模型上。
  4. DeepSeek 背后的数学:GRPO

二、GRPO 的核心理念——相对评估

GRPO 的核心思想是 相对评估,具体而言:

  • • 每个输入,模型会生成一组可能的回答。
  • • 这些回答不会单独评估,而是通过相互比较来确定优劣。
  • • 奖励机制 基于回答相对于组内平均水平的优势或劣势,而非绝对得分。

这种方法不仅提升了训练效率,还通过组内竞争不断推动模型优化推理能力,进而赋能 DeepSeek 在复杂任务中取得卓越表现。

三、解读 GRPO 目标函数

在 GRPO 中,目标函数决定了模型如何更新策略以生成更高质量的回答。下面我们逐步解析这一过程。

1. GRPO 目标函数概览

我们可以直观了解 GRPO 的目标函数如何构建。

DeepSeek 背后的数学:GRPO
DeepSeek 背后的数学:GRPO
DeepSeek 背后的数学:GRPO

2. 用简单的方式理解 GRPO 目标函数

可以把 GRPO 的目标函数看作一份教学指南,指导模型通过对比自己的回答不断改进。

下面通过一个类比来说明其工作原理:

目标类比

想象你正在教一群学生解一道数学题。你不直接告诉他们谁对谁错,而是把所有学生的答案进行比较,找出谁做得最好(以及原因何在),然后通过奖励优秀解法、改进不足之处来帮助他们提升。这正是 GRPO 的工作方式,只不过它教的是 AI 模型而非学生。

逐步解析

步骤 1:从查询开始

从训练数据集 P(Q) 中选取一个查询 (q)。

例子:假设查询是 “8 + 5 的和是多少?”

步骤 2:生成一组回答

模型为该查询生成一组 GGG 的回答。

例子:模型生成以下几个回答:

o1: “答案是 13。”

o2: “十三。”

o3: “是 12。”

o4: “和是 13。”

步骤 3:计算每个回答的奖励

奖励是什么?

奖励通过量化回答的质量来引导模型的学习。

GRPO 中的奖励类型:

  1. 1. 准确性奖励: 基于回答的正确性(例如,解答数学问题)。
  2. 2. 格式奖励: 确保回答符合结构性指南(例如,推理部分用 标签包裹)。
  3. 3. 语言一致性奖励: 对语言混杂或格式不一致的回答进行惩罚。

为每个回答分配奖励(ri),根据其好坏。奖励可能依赖于:

  • • 准确性: 答案是否正确?
  • • 格式: 回答是否结构良好?

示例:

  • • r1 = 1.0(正确且格式良好)。
  • • r2 = 0.9(正确但不够正式)。
  • • r3 = 0.0(错误的回答)。
  • • r4 = 1.0(正确且格式良好)。

步骤 4:比较回答(组内优势)

  • • 计算每个回答相对于组的优势(Ai)。

    DeepSeek 背后的数学:GRPO

简单理解就是这样:

DeepSeek 背后的数学:GRPO
  • • 比组平均值更好的回答得到正分,表现差的回答得到负分。
  • • 这种方式促进了组内竞争,推动模型生成更好的回答。

步骤 5:使用剪枝更新策略

DeepSeek 背后的数学:GRPO
  • • 示例: 如果新策略开始过多地为 o1 分配概率,剪枝操作确保它不会过度强调这个回答。
  • • 这使得在复杂任务(如推理)中能够实现稳定、可靠的策略优化。

步骤 6:使用 KL 散度惩罚偏差

DeepSeek 背后的数学:GRPO

总结 GRPO 目标函数工作流程

  1. 1. 为查询生成一组回答
  2. 2. 基于准确性、格式等标准计算每个回答的奖励
  3. 3. 在组内比较回答,计算每个回答的相对优势(Ai)
  4. 4. 更新策略,优先保留优势较高的回答,同时通过剪枝确保更新稳定
  5. 5. 通过 KL 正则化,防止模型策略偏离预设基线

四、GRPO 的优势所在

为什么 GRPO 更有效?

  • • 无需 Critic
    GRPO 通过组内比较取代了独立评估器,从而大幅降低了计算成本。
  • • 稳定学习
    结合剪枝和 KL 正则化,GRPO 保证了模型在更新过程中不会出现剧烈波动,使得学习过程更加稳健。
  • • 高效训练
    针对推理任务的相对评分机制,使 GRPO 更适用于那些绝对评分难以实现的复杂任务,提升了训练效率。

现实生活中的类比

设想一群学生在解一道数学题:不是由老师单独评分,而是学生们相互比较答案,优秀者受到鼓励,落后者则从错误中学习。随着时间推移,全体学生水平逐步提高。这一过程正是 GRPO 训练 AI 模型的真实写照。

五、GRPO 与 PPO 的比较

下图展示了 GRPO 与传统 PPO 在不同维度上的对比,清晰地体现了 GRPO 在效率、稳定性和可扩展性上的优势。

DeepSeek 背后的数学:GRPO

六、DeepSeek 的成功实践

DeepSeek 背后的数学:GRPO

通过 GRPO,DeepSeek 在推理任务中取得了令人瞩目的成绩,具体体现在以下几个方面:

  • • 增强推理能力
    DeepSeek-R1-Zero 在 AIME 2024 中获得了 71.0% 的 Pass@1 分数,通过多数投票提升至 86.7%,在数学和逻辑问题上与 OpenAI 等专有模型比肩。
  • • 新兴高级能力
    通过 GRPO,DeepSeek 模型发展出自我验证、反思和长链思考等高级推理行为,这些能力对于解决复杂问题至关重要。
  • • 优异的可扩展性
    GRPO 采用组内优化,去除了对评论者模型的需求,显著降低了计算开销,使得大规模训练成为可能。
  • • 成功的模型蒸馏
    从 GRPO 训练的模型中提取出的较小模型依然保留了高水准的推理能力,为 AI 应用的普及和成本控制提供了保障。

通过聚焦组内相对表现,GRPO 不仅为 DeepSeek 设定了推理和长文理解的新标杆,同时在效率与可扩展性方面也展现出卓越优势。

参考文献

1、https://arxiv.org/abs/2501.12948

2、https://medium.com/@sahin.samia/the-math-behind-deepseek-a-deep-dive-into-group-relative-policy-optimization-grpo-8a75007491ba

 


版权声明:charles 发表于 2025年2月23日 am7:04。
转载请注明:DeepSeek 背后的数学:GRPO | AI工具大全&导航

相关文章