大模型(LLMs)强化学习——RLHF及其变种
来源:AiGC面试宝典 作者:宁静致远 日期:2024年01月27日
一、介绍一下 LLM的经典预训练Pipeline?
目前基于Transformer decoder的LLM,比如ChatGPT、LLaMA、Baichuan等,通常都会有基于预训练的base模型和在base模型基础上使用RLHF微调的Chat模型,Chat模型的训练一般包括如下三个步骤:预训练、有监督微调和对齐。
- 预训练阶段:模型从大量无标注文本数据集中学习通用知识;
- 有监督微调阶段:使用人工标注的指令数据集优化模型,使其更好地遵守特定指令;
- 对齐阶段:通过对齐技术使LLM更有用且更安全地响应用户提示。
📝通俗解释:想象培养一个全能助手的过程:预训练就像让一个人博览群书(自学大量知识);有监督微调就像请老师傅手把手教具体技能(用标注好的例子学习);对齐阶段就像进行职业道德培训(让模型更懂人心、更安全)。
二、预训练(Pre-training)篇
2.1 具体介绍一下 预训练(Pre-training)?
预训练(Pre-training):利用数十亿到数万亿个token的庞大文本语料库对模型进行训练,使模型能够根据提供的文本预测「下一个单词」。
| 项目 | 说明 |
|---|---|
| 数据规模 | 100B 到 >5T tokens |
| 任务 | Next-token prediction(预测下一个词) |
| 输出 | base model / "foundation model" |
📝通俗解释:预训练就像让模型做「完形填空」练习。给模型一段文字,它要预测下一个最可能出现的词。通过阅读海量的文本,模型逐渐学会语言的规律和知识。
三、有监督微调(Supervised Finetuning)篇
3.1 具体介绍一下 有监督微调(Supervised Finetuning)?
有监督微调(Supervised Finetuning):虽然SFT训练目标和预训练类似,也是需要模型预测「下一个单词」,但使用的是人工标注的指令数据集。其中模型的输入是一个指令(根据任务的不同,也可能包含一段输入文本),输出为模型的预期回复内容。
| 项目 | 说明 |
|---|---|
| 数据规模 | 通常 1k-50k 条指令-响应对 |
| 任务 | 同样是 next-token prediction |
| 特点 | 需要人工标注的高质量问答数据 |
📝通俗解释:预训练是自学成才,有监督微调则是「请家教」。给模型出具体的题目(如「写一首关于鹈鹕的打油诗」),再告诉它正确答案,让模型学会按人类期望的方式回答问题。
3.2 有监督微调(Supervised Finetuning)的训练数据格式是什么样?
{
"instruction": "Write a limerick about a pelican.",
"input": "",
"output": "There once was a pelican so fine,\nHis beak was as colorful as sunshine,\nHe would fish all day,\nIn a very unique way,\nThis pelican was truly divine!"
},
{
"instruction": "Identify the odd one out from the group.",
"input": "Carrot, Apple, Banana, Grape",
"output": "Carrot"
}模型会把"Write a limerick about a pelican"作为输入,逐个token进行预测,输出"There once was a pelican so fine..."
📝通俗解释:训练数据格式就像一道道「问答题」。instruction是问题,output是标准答案。模型学习的是:看到这个问题,应该这样回答。
3.3 预训练(Pre-training)vs 有监督微调(Supervised Finetuning)区别?
| 对比项 | 预训练(Pre-training) | 有监督微调(SFT) |
|---|---|---|
| 训练目标 | 相同:预测下一个单词 | 相同:预测下一个单词 |
| 数据量 | 数十亿到数万亿tokens | 通常1k-50k条 |
| 数据格式 | 无标注的原始文本 | 人工标注的指令-响应对 |
| 数据来源 | 互联网海量文本 | 人工标注 |
📝通俗解释:预训练像在图书馆自学(有书就行),有监督微调像上补习班(有老师教)。两者学习方式相似,但学习的材料和学习深度不同。
四、对齐(Alignment)篇
4.1 简单介绍一下 对齐(Alignment)?
对齐(Alignment):通过微调的方式,将语言模型与人类的偏好、价值观进行对齐,这也是RLHF机制发挥的地方。
对齐效果示意图 图片描述:左侧为Alignment框图,内容包括Align with human preferences、Usually reinforcement learning with human feedback (RLHF 、>50k examples。右侧为折线图,显示RLHF在不同模型大小下的Win rate,均优于SFT和Prompting方法。)
实验数据表明:使用RLHF微调的模型(如GPT-3 + supervised FT + RLHF)在各个规模上都显著优于单纯的提示工程(Prompting)和有监督微调。
📝通俗解释:对齐就像给模型「洗脑」——让它学会按人类喜欢的方式做事。比如同样的问题,模型不仅要答对,还要答得更有帮助、更安全、更符合人类价值观。
五、Reinforcement Learning with Human Feedback (RLHF)篇
5.1 简单介绍一下 RLHF 流程?
RLHF流程包含三个核心步骤:
- 第一步:在预训练好的模型上进行有监督微调(SFT);
- 第二步:在有监督微调模型基础上创建一个奖励模型(Reward Model,RM);
- 第三步:基于RM模型使用PPO算法微调SFT模型;
📝通俗解释:RLHF的三步走战略:①先教会模型基础对话能力;②让模型学会给回答打分(评分员);③让模型自己练习答题,分数越高越好(自我进化)。
5.2 如何在预训练好的模型上进行有监督微调?
先收集一个Prompts集合,并要求标注人员写出高质量的回复,然后使用该数据集以监督的方式微调预训练的基础模型。
RLHF Step 1流程图 图片描述:流程从上到下:1. Sample prompt (示例: Explain the moon landing to a 6 year old ;2. Human writes response (示例: Some people went to the moon...);3. Supervised finetuning of pretrained LLM。右侧标注"Time & labor intensive"。)
📝通俗解释:第一步是「请人写答案」。找一堆人针对各种问题写出高质量回答,然后用这些数据来微调模型。这步很耗时但必不可少。
5.3 如何在有监督微调模型基础上创建一个RM模型?
对于每个Prompt,要求有监督微调后的LLM生成四到九个回复,再由标注人员根据个人偏好对所有回复进行排序。虽然排序过程很耗时,但工作量还是比第一步的有监督数据集构建要少一些。
RLHF Step 2流程图 图片描述:左侧显示SFT模型。右侧流程:1. Sample prompt;2. Collect model responses (生成A, B, C, D多个回复 ;3. Human ranks responses;4. Train reward model (Another LLM)。)
在处理排序数据时,奖励模型RM来自RLHF第一步的有监督微调语言模型(SFT),SFT的输出通过一个回归层(单个输出节点)转换为奖励分数,即可称为RM模型。
📝通俗解释:第二步是「训练评分员」。让模型针对同一个问题生成多个答案,然后让人给这些答案排序。模型学习的是:什么样的回答是好的,什么样的是不好的。这样模型就学会了给回答打分。
5.4 如何基于RM模型使用PPO算法微调SFT模型?
基于RM模型使用**近端策略优化(Proximal Policy Optimization,PPO)**算法微调SFT模型。
RLHF Step 3流程图 图片描述:左侧输入为Finetuned LLM (step 1 和Reward LLM (step 2)。右侧流程:1. Sample prompt;2. Generate output;3. Proximal policy optimization algorithm;4. RM评估;5. Calculate reward to update model。)
📝通俗解释:第三步是「让模型自我进化」。模型生成回答,RM给出分数,然后PPO算法根据分数调整模型参数。这个过程反复进行,模型越来越会给出高分的回答。
5.5 InstructGPT的原理,讲讲RLHF和Reward?
InstructGPT是一种基于强化学习的文本生成模型,其核心原理涉及两个概念:RLHF(从人类反馈中学习强化)和Reward Shaping(奖励塑造)。
RLHF:在训练InstructGPT时,首先使用人类生成的示例对模型进行预训练。然后,通过与人类评估者进行交互,收集评估结果,以创建一个用于强化学习的数据集。该数据集包含了人类评估者对生成结果的评分或反馈,用于指导模型的强化学习训练。
Reward Shaping:为了更好地引导模型的训练,Reward Shaping用于调整模型的奖励信号。通过将人类评估者的反馈与模型生成的文本进行比较,可以计算出一个差异度量,用作奖励信号的一部分。这样,模型可以根据这个奖励信号进行训练。模型根据当前的状态(对话历史)生成文本,并通过奖励信号来评估生成文本的质量。模型的目标是最大化预期累积奖励,从而生成更高质量的文本。
📝通俗解释:RLHF就像「因材施教」——老师(RM)根据学生(模型)的表现给打分(Reward),学生根据分数调整学习方法。Reward Shaping则是让打分更精准,比如不仅看答案对不对,还要看是否有帮助、是否安全。
通过RLHF和Reward Shaping的结合,InstructGPT能够通过人类评估者的反馈指导模型的生成过程,并逐步提升生成文本的质量和一致性。
六、LLaMA 2 的 RLHF 篇
6.1 介绍一下 LLaMA 2 的 RLHF?
Llama-2 RLHF流程图 图片描述:RLHF Step 1: Pretraining data → Self-supervised learning → Llama 2 → Supervised fine-tuning → Llama-2-chat。RLHF Step 2: Human Feedback → Human preference data → 训练Safety Reward Model和Helpful Reward Model。RLHF Step 3: Fine-tuning → Rejection Sampling + PPO → 迭代优化 → Llama-2-chat。
Llama-2-chat的RLHF相比标准RLHF有以下改进:
- 第一步RLHF微调使用相同的指令数据;
- 第二步使用了两个奖励模型(Helpfulness和Safety);
- 通过多个阶段的不断进化,奖励模型会根据Llama-2-chat模型出现的错误进行更新;
- 增加了**拒绝采样(Rejection Sampling)**步骤。
📝通俗解释:LLaMA 2的RLHF更聪明——它请了两个「老师」:一个教怎么更有用,一个教怎么更安全。而且它不是只学一次,而是反复学习(迭代优化),同时用两种方法(拒绝采样+PPO)让模型学得更好。
6.2 LLaMA 2 中 Margin Loss 的实现逻辑?
标准InstructGPT中RLHF PPO方法思路:对同一个提示下的4-9个模型输出进行排序。
- 例如:四个回复的排序结果为A<C<D<B,那么可以得到六个对比结果:A < C,A < D,A < B,C < D,C < B,D < B
Llama 2的Margin Loss:每次只能看到两个(而非4-9个)回复进行对比,但新增了一个边际(margin)标签,对比结果可以为**「显著更好」(significantly better)和「好的不明显」(negligibly better)**。
在排序训练时,Llama 2相比InstructGPT增加了边际损失:
$$ \mathcal{L}{\text{ranking}} = - \log \left( \sigma \left( r{\theta}(x, y_c) - r_{\theta}(x, y_r) - m(r) \right) \right) $$
其中:
- $r_{\theta}(x, y)$ 是提示x和生成的回复y的标量分数输出
- $\theta$ 为模型权重
- $\sigma$ 是将层输出转换为0到1范围分数的逻辑S型函数
- $y_c$ 是标注人员选择的更优回复
- $y_r$ 是较差的回复
- $m(r)$ 可以调节两个回复之间的差值,如果对比结果为「显著更好」,则会增加梯度值,加快更新速度
📝通俗解释:Margin Loss就像「更细心的评分标准」。传统方法是让模型比较一堆答案排出名次,LLaMA 2的方法是每次只比两个答案,而且要判断好多少:如果明显更好,就给更大的奖励;如果差不多,就给小奖励。这样学习更精准。
6.3 LLaMA 2 中两个RM模型的实现逻辑?
Llama 2中的两个奖励模型:
- 侧重**「有用性」(Helpfulness)**
- 侧重**「安全性」(Safety)**
用于模型优化的最终奖励函数会将两个分数进行线性组合。
两个RM模型流程图 图片描述:左侧流程训练Helpfulness Reward Model,右侧流程训练Safety Reward Model。每个流程都是:输入提示 → 生成两个回复 → 人工标注(significantly better, better, slightly better, negligibly better)→ 训练对应的Reward Model。
📝通俗解释:两个RM模型就像「双导师」制度。一个老师只管答案有没有用,另一个老师只管回答是否安全。最终得分是两个老师分数的加权平均。这样模型既聪明又守规矩。
6.4 LLaMA 2 中 拒绝采样 逻辑?
Llama 2使用了一个训练流水线,同时使用PPO和拒绝采样算法,迭代地产生多个RLHF模型(从RLHF-V1到RLHF-V5)。
- 拒绝采样:模型生成K个输出,使用最高奖励的输出更新梯度
- PPO:每次只基于单样本进行更新
拒绝采样流程图 图片描述:流程为:Sample prompt → Generate outputs → Rejection sampling algorithm(生成多个候选输出)→ RM计算奖励分数 → 选择最高奖励的输出更新模型。
在监督微调的初始阶段之后,模型只使用拒绝采样进行训练,然后再结合拒绝采样和PPO。
📝通俗解释:拒绝采样就像「海选」。让模型针对一个问题生成多个答案,让RM打分,选最好的那个来训练模型。PPO则像「精益求精」,每次根据一个答案来调整。这样配合使用,效果更好。
七、RLHF 替代方案篇
7.1 为什么需要 RLHF 替代方案?
虽然RLHF在InstructGPT和Llama 2论文中被证明是有效的,但RLHF的过程比较复杂,存在以下挑战:
- 需要大量人工标注的偏好数据
- 训练过程不稳定,超级参数敏感
- 奖励模型可能存在「奖励黑客」(Reward Hacking)问题
- 计算资源消耗大
📝通俗解释:RLHF虽然效果好,但「太贵了」——需要找人打分、训练多个模型、反复调试。于是研究者们开始寻找更简单、更高效的方法。
7.2 RLHF 有哪些替代方案?
替代方案 1:Constitutional AI: Harmlessness from AI Feedback
论文名称:Constitutional AI: Harmlessness from AI Feedback 论文链接:https://arxiv.org/abs/2212.08073
论文提出了一种基于人类提供的规则列表的自我训练机制。与InstructGPT论文类似,也使用了强化学习方法。
Constitutional AI流程图 图片描述:两个主要阶段:1. 监督学习微调阶段:从Helpful RLHF Model开始,生成对"Red Teaming"提示的响应,进行Critique和Revision,得到Finetuned SL-CAI Model。2. 强化学习阶段:生成成对样本,使用Constitutional AI Feedback进行自我改进,训练Preference Model,最终得到Final RL-CAI Model。
上图中的「红队」(Red Team)指的是测试目标系统的防御能力,即外部或内部专家模拟潜在对手的过程,通过模仿现实世界攻击者的战术、技术和程序来挑战、测试并最终改进系统。
📝通俗解释:Constitutional AI让模型自己当自己的老师。它先学一堆规则(比如「不能回答有害问题」),然后自己生成问题、自己批评自己的回答、自己改进。这样就不用大量人工标注了。
替代方案 2:The Wisdom of Hindsight Makes Language Models Better Instruction Followers
论文名称:The Wisdom of Hindsight Makes Language Models Better Instruction Followers 论文链接:https://arxiv.org/abs/2302.05206
论文提出了一种基于重新标记的监督微调方法HIR(Hindsight Instruction Relabeling),该方法在12个BigBench任务上优于RLHF。
HIR是如何工作的? 简而言之,HIR方法包括两个步骤,即采样和训练:
- 采样步骤:Prompt和指令输入给LLM来获取答案
- 训练步骤:根据对齐得分,在训练阶段适当的地方重新标注指令;然后重新标记的指令和原始的Prompt用于微调LLM
使用这种重新标记的方法,研究人员有效地将失败案例(LLM创建的输出与原始指令不匹配的案例)转化为有用的训练数据。
HIR效果对比图 图片描述:柱状图显示平均性能:No Training为26.8,PPO为34.7,FARL为56.1,HIR为67.3。HIR显著优于其他基线方法。
📝通俗解释:HIR就像「亡羊补牢」——模型没做对没关系,把错误答案改成「其实题目是让你这样做」,然后当正确答案来训练。这样失败的经验也能变成学习材料。
替代方案 3:Direct Preference Optimization: Your Language Model is Secretly a Reward Model
论文名称:Direct Preference Optimization: Your Language Model is Secretly a Reward Model 论文链接:https://arxiv.org/abs/2305.18290
**直接偏好优化(DPO)**是具有PPO的RLHF的替代方案。研究人员表明,在RLHF中拟合奖励模型的交叉熵损失可以直接用于微调LLM。根据基准测试,使用DPO更有效,而且在响应质量方面通常也优于RLHF/PPO。
| 方法 | DPO | SFT | PPO-1 |
|---|---|---|---|
| N respondents | 272 | 122 | 199 |
| GPT-4 (S) win % | 47 | 27 | 13 |
| GPT-4 (C) win % | 54 | 32 | 12 |
| Human win % | 58 | 43 | 17 |
RLHF与DPO流程对比 图片描述:左侧RLHF流程:preference data → reward model → LM policy → reinforcement learning。右侧DPO流程:preference data → final LM,直接用最大似然优化。
📝通俗解释:DPO就像「抄近道」。传统RLHF要训练奖励模型、再用PPO更新策略,步骤繁琐。DPO直接用偏好数据训练语言模型,省掉了中间环节,效果反而更好。
替代方案 4:Reinforced Self-Training (ReST) for Language Modeling
论文名称:Reinforced Self-Training (ReST) for Language Modeling 论文链接:https://arxiv.org/abs/2308.08998
ReST是人类反馈强化学习(RLHF)的一种替代方案,它使LLM与人类偏好保持一致。ReST使用采样方法创建改进的数据集,在质量越来越高的子集上迭代训练,以完善其奖励函数。
ReST流程图 图片描述:两个主要步骤:Grow(生成新的采样数据集)和Improve(过滤+微调)。这是一个迭代过程,包含G-step和I-step的循环。
根据作者的说法,与标准的在线RLHF方法(如具有近端策略优化的RLHF,PPO)相比,ReST通过离线生成训练数据集实现了更高的效率。
📝通俗解释:ReST就像「自学成才」。模型自己生成答案,自己筛选出好的答案,然后用这些好答案继续训练。一轮轮筛选,答案质量越来越高。
替代方案 5:RLAIF: Scaling Reinforcement Learning from Human Feedback with AI Feedback
论文名称:RLAIF: Scaling Reinforcement Learning from Human Feedback with AI Feedback 论文链接:https://arxiv.org/abs/2309.00267
RLAIF(人工智能反馈强化学习)研究表明,RLHF中奖励模型训练的评级不一定必须由人类提供,可以由LLM生成。标注人员在一半的案例中更喜欢RLAIF模型,意味着两个模型的差距并不大。RLHF和RLAIF都大大优于纯通过监督指令微调训练的模型。
RLHF与RLAIF对比流程图 图片描述:上方为RLAIF流程:SFT Model生成样本 → Off-the-shelf LLM评分 → 训练RM from AI Feedback → RL with AI Feedback。下方为传统RLHF流程:SFT Model生成样本 → Human评分 → 训练RM from Human Feedback → RL with Human Feedback。
RLAIF vs RLHF胜率对比 图片描述:左侧柱状图:RLHF胜率73%,RLAIF胜率71%,都远超SFT。右侧柱状图:RLHF相对于RLAIF胜率50%。
📝通俗解释:RLAIF让AI来代替人类打分。不用找人标注答案了,直接用另一个AI来评价回答质量。研究发现AI打的分和人类打的分差不多,这样训练成本大大降低。
八、RLHF 实践篇
8.1 RLHF 训练过程,怎么选取最优 checkpoint?
8.1.1 动机
RLHF训练过程中,因为Reward Model输出的只是一个近似奖励(Proxy Reward),导致不能完全相信训练过程中的Reward变化。「更高」的Reward不一定意味着「更好」的效果。
RM Score vs KL distance折线图 图片描述:横轴为KL distance (0-100 ,纵轴为RM Score (0.0-1.4)。虚线为Proxy(近似奖励),实线为Gold(真实奖励)。随着KL增加,Proxy分数持续上升,但Gold分数先升后降,在某个KL值处达到峰值后下降。)
- 横轴为训练模型与初始模型之间的KL(可简单理解为差异)
- 虚线是近似Reward(RM打出的分数)
- 实线是真实Reward(大多数情况下无法直接获得)
从上图可以看到:随着「训练模型」和「初始模型」之间的KL越大,模型的「真实分数」会先逐步提升,到达某个峰值后逐渐减小(实线),但「近似分数」却一直在稳步上升(虚线)。显然,「真实分数」曲线的「最高点」就是我们所期望得到的「最优模型」。
但问题是:根本无法获得「真实分数」,该如何找到这个「最高点」呢?
📝通俗解释:就像考试时有个「参考答案」——但这个参考答案有时候会出错(这就是Proxy Reward)。模型训练时间越长,分数看起来越高(参考答案给的),但实际真实水平(真实Reward)可能已经开始下降了。我们需要找到真实水平的最高点。
8.1.2 真实Reward的估算公式
我们假定:真实Reward曲线与「当前模型和初始模型」之间的KL存在某种关系。
由于KL是一个可以被实时计算的数值,如果我们能够找出这种存在的「关系」,那我们就能找出真实Reward的最高点对应的KL值是多少,从而找出最优模型。
OpenAI找到了这个计算公式:
对于Best-of-N(BoN)采样: $$ R_{\text{bon}}(d) = d \left( \alpha_{\text{bon}} - \beta_{\text{bon}} d \right) $$
对于强化学习(RL): $$ R_{\text{RL}}(d) = d \left( \alpha_{\text{RL}} - \beta_{\text{RL}} \log d \right) $$
其中:
- BON(Best-of-N):也叫Reject Sampling,先让模型生成一堆response,再利用RM从中挑出最好的几个回复用于后续模型训练
- d:被定义为初始模型和当前模型的KL开根号
- α和β:跟「Reward Model大小」和「Reward Model训练数据规模」等因素有关
📝通俗解释:这个公式就像找到一个「作弊器」——虽然我们不知道真实分数,但可以通过KL值和RM大小估算出来。公式里的α和β是经验值,跟RM的大小有关。
8.1.3 α和β的值
为了探究RM的大小和α、β之间的关系,实验中固定了Actor模型的大小(1.2B)、训练RM所用的数据集大小(9w条)。
α和β与RM大小关系图 图片描述:左图α_bon随RM Size增大而线性上升(从0.5到0.65);右图β_bon随RM Size增大而线性下降(从0.12到0.09)。
不同RM规模对应的α和β的值:
| RM规模 | α | β |
|---|---|---|
| 0.01B (10M) | 0.5 | 0.12 |
| 0.1B (100M) | 0.6 | 0.108 |
| 1B | 0.65 | 0.09 |
将上述参数代入R_bon(d)公式,绘制reward曲线图:
不同RM规模下的Reward曲线 图片描述:折线图,横轴为KL Divergence (d ,纵轴为RM Score。三条曲线分别代表0.01B(蓝色)、0.1B(橙色)、1B(绿色)。1B曲线最高且下降最晚,0.01B曲线最低且下降最早。)
从图中可以得出以下结论:
- 相同训练数据下,Reward Model越大,Actor模型能够获得更高的真实Reward
- Reward Model越大,能够支持模型在「不偏离真实奖励的路途上走更远」,即在更大的KL处发生下降转折
📝通俗解释:RM越大,「作弊器」越准。小的RM会让模型「走偏」得更早(真实Reward更早下降),大的RM可以让模型在正确的道路上走更远。
8.1.4 Reward Model训练数据集的Scaling Law
为了探究RM Dataset的规模对最终模型的影响,实验中固定在12M的RM下进行实验:
RM Dataset Scaling Law 图片描述:包含两张子图,左图为BoN方法,右图为RL方法。横轴为KL distance,纵轴为RM Score。不同颜色的线代表不同的Data Size (250到16000 。)
从上图中可以看到:
- RM数据集越大,对最终的提升就越大
- 数据集最少需要超过2000条
- 如果训练数据量低于2k,无论RM在哪个规模、无论使用BON还是RL,对模型最终的提升都非常小
📝通俗解释:训练RM也需要「题海战术」。数据太少(<2000条),RM学不会怎么打分;数据越多,RM打分越准。
8.1.5 Policy Model的Scaling Law
探究Policy Model的大小对最终效果的影响。文中选用1.2B和6B这两个大小的模型进行对比,固定RM大小为12M:
Policy Model Scaling Law 图片描述:两张子图,左图为BoN方法,右图为RL方法。横轴为KL distance,纵轴为RM Score。图例显示1.2B和6B两种Policy Size。
从上图可以得出2个结论:
Policy Model越大,利用RM做提升的收益就越小:在BON下,1.2B模型提升约0.7分,6B模型提升约0.35分。不过这是因为越大的模型初始分就较高导致提升没有那么大,绝对分数上来看还是模型越大越好的。
无论模型规模如何,最优Reward对应的KL值是一样的:这一点比较反直觉,通常会认为较大的模型应该能够更快地hacking掉reward model,应该在更小的KL处就达到最高的reward峰值,但实验结果并非如此。
📝通俗解释:大模型「自学」能力已经很强了,所以RM能帮上忙的空间就小了。但不管模型大小,找到最优点的KL值是类似的。这意味着我们可以用类似的方法来选择最优checkpoint。
参考资料
- InstructGPT论文
- LLaMA 2论文
- Constitutional AI论文
- HIR论文
- DPO论文
- ReST论文
- RLAIF论文
- OpenAI RLHF相关研究
整理说明:本文档对原始笔记进行了以下优化:
- 修正了"Supervised Tinetuning"等拼写错误
- 规范化了术语翻译(如PPO统一为"近端策略优化")
- 补充了部分未完整的内容
- 为重要概念添加了通俗解释
- 优化了格式和图表描述