很久没有更新了,但我还在学习。只是进度非常非常的慢。
这不是一篇科普也不是我的什么模型体验报告。
算是一篇学习笔记吧,好记性不如烂笔头。很多东西不写下来,就好像一直只留下了模糊的印象,希望从现在起继续刻意学习。
|
GPT - 4o 2024 年 5 月 |
o1 2024 年 9 月 |
---|---|---|
|
|
大型语言模型,推理模型。 经过强化学习训练,可以执行复杂的推理。 |
|
|
|
|
|
|
|
System 1 Thinking 快速思考 |
System 2 Thinking 慢速思考 |
|
|
|
System 1 思维(快速思考)和 System 2 思维(慢速思考)的概念源自心理学家丹尼尔·卡尼曼的著作《思考,快与慢》。
这两种思维模式代表了大脑处理信息的不同方式:System 1 是一种快速、直觉性且自动化的思维方式,它几乎不需要意识的努力就能运作。这种思维模式使得人类能够根据模式识别和个人经验迅速做出决策和判断。例如,在日常生活中,人们可以不假思索地完成许多常规任务,如驾驶车辆或选择熟悉的路线前往目的地。
System 2 则是缓慢、深思熟虑且有意识的过程,需要更多的注意力和认知资源来执行复杂的分析和解决问题的任务。当遇到新情况或者复杂问题时,我们会激活 System 2 来进行更深入的思考。
o1 的在训练过程中的强化学习和 GPT4o 的 RLHF 有什么不同?
相同点
-
基础理论框架:两者都基于强化学习的基本理论框架,智能体通过与环境进行交互,根据环境反馈的奖励信号来调整自己的行为策略,以实现目标优化。 -
利用反馈优化:都利用了外部反馈来优化模型。在 o1 的强化学习中,模型在推理过程中会根据是否能正确解决问题等得到相应的奖励或惩罚;RLHF 中,人类标注者的排序和评价作为反馈,用于训练奖励模型和优化语言模型。 -
提升模型性能:都是为了提升模型在语言处理任务中的性能和表现,使模型生成的内容更符合人类的期望和需求,从而更好地服务于各种应用场景。
不同点
-
训练阶段的侧重点: o1:更注重在推理阶段引入强化学习,让模型在回答问题之前进行“思考”,通过“私密思维链”逐步构建推理路径,把复杂问题拆解为简单步骤,再根据规划的结果一步步细化,最后把所有结果做总结得到最终结果,其强化学习主要作用于推理过程。 GPT系列的RLHF:主要在预训练后的微调阶段发挥作用,通过人类反馈来调整模型的输出,使其更符合人类的偏好和实际需求,重点在于优化模型生成的文本内容。 -
奖励模型方面: o1:其奖励机制更多地与模型自身的推理能力和问题解决能力相关联,例如在复杂的数学或编程问题中,当模型能够正确地进行推导和求解时会获得奖励,奖励模型可能更侧重于对推理过程和结果的评估。 GPT系列的RLHF:奖励模型是基于人类标注员对模型生成的多个候选文本的排序和标注来训练的,更关注文本的质量、相关性、流畅性等方面,以人类的主观判断作为主要依据来确定奖励信号。 -
训练数据和方法: o1:采用了如强化学习与自我博弈等独特的训练方法,让模型像自己和自己下棋一样进行训练,以实现思维链的能力。 GPT系列的RLHF:基于大量的人工标注数据进行训练,标注员需要对模型生成的输出进行偏好标注,然后利用这些标注数据训练奖励模型,再通过强化学习微调语言模型。