Skip to content

大模型(LLMs)强化学习——RLHF及其变种

来源:AiGC面试宝典 作者:宁静致远 日期:2024年01月27日


一、介绍一下 LLM的经典预训练Pipeline?

目前基于Transformer decoder的LLM,比如ChatGPT、LLaMA、Baichuan等,通常都会有基于预训练的base模型和在base模型基础上使用RLHF微调的Chat模型,Chat模型的训练一般包括如下三个步骤:预训练有监督微调对齐

  1. 预训练阶段:模型从大量无标注文本数据集中学习通用知识;
  2. 有监督微调阶段:使用人工标注的指令数据集优化模型,使其更好地遵守特定指令;
  3. 对齐阶段:通过对齐技术使LLM更有用且更安全地响应用户提示。

📝通俗解释:想象培养一个全能助手的过程:预训练就像让一个人博览群书(自学大量知识);有监督微调就像请老师傅手把手教具体技能(用标注好的例子学习);对齐阶段就像进行职业道德培训(让模型更懂人心、更安全)。


二、预训练(Pre-training)篇

2.1 具体介绍一下 预训练(Pre-training)?

预训练(Pre-training):利用数十亿到数万亿个token的庞大文本语料库对模型进行训练,使模型能够根据提供的文本预测「下一个单词」。

项目说明
数据规模100B 到 >5T tokens
任务Next-token prediction(预测下一个词)
输出base model / "foundation model"

📝通俗解释:预训练就像让模型做「完形填空」练习。给模型一段文字,它要预测下一个最可能出现的词。通过阅读海量的文本,模型逐渐学会语言的规律和知识。


三、有监督微调(Supervised Finetuning)篇

3.1 具体介绍一下 有监督微调(Supervised Finetuning)?

有监督微调(Supervised Finetuning):虽然SFT训练目标和预训练类似,也是需要模型预测「下一个单词」,但使用的是人工标注的指令数据集。其中模型的输入是一个指令(根据任务的不同,也可能包含一段输入文本),输出为模型的预期回复内容。

项目说明
数据规模通常 1k-50k 条指令-响应对
任务同样是 next-token prediction
特点需要人工标注的高质量问答数据

📝通俗解释:预训练是自学成才,有监督微调则是「请家教」。给模型出具体的题目(如「写一首关于鹈鹕的打油诗」),再告诉它正确答案,让模型学会按人类期望的方式回答问题。

3.2 有监督微调(Supervised Finetuning)的训练数据格式是什么样?

json
{
  "instruction": "Write a limerick about a pelican.",
  "input": "",
  "output": "There once was a pelican so fine,\nHis beak was as colorful as sunshine,\nHe would fish all day,\nIn a very unique way,\nThis pelican was truly divine!"
},
{
  "instruction": "Identify the odd one out from the group.",
  "input": "Carrot, Apple, Banana, Grape",
  "output": "Carrot"
}

模型会把"Write a limerick about a pelican"作为输入,逐个token进行预测,输出"There once was a pelican so fine..."

📝通俗解释:训练数据格式就像一道道「问答题」。instruction是问题,output是标准答案。模型学习的是:看到这个问题,应该这样回答。

3.3 预训练(Pre-training)vs 有监督微调(Supervised Finetuning)区别?

对比项预训练(Pre-training)有监督微调(SFT)
训练目标相同:预测下一个单词相同:预测下一个单词
数据量数十亿到数万亿tokens通常1k-50k条
数据格式无标注的原始文本人工标注的指令-响应对
数据来源互联网海量文本人工标注

📝通俗解释:预训练像在图书馆自学(有书就行),有监督微调像上补习班(有老师教)。两者学习方式相似,但学习的材料和学习深度不同。


四、对齐(Alignment)篇

4.1 简单介绍一下 对齐(Alignment)?

对齐(Alignment):通过微调的方式,将语言模型与人类的偏好、价值观进行对齐,这也是RLHF机制发挥的地方。

对齐效果示意图 图片描述:左侧为Alignment框图,内容包括Align with human preferences、Usually reinforcement learning with human feedback (RLHF 、>50k examples。右侧为折线图,显示RLHF在不同模型大小下的Win rate,均优于SFT和Prompting方法。)

实验数据表明:使用RLHF微调的模型(如GPT-3 + supervised FT + RLHF)在各个规模上都显著优于单纯的提示工程(Prompting)和有监督微调。

📝通俗解释:对齐就像给模型「洗脑」——让它学会按人类喜欢的方式做事。比如同样的问题,模型不仅要答对,还要答得更有帮助、更安全、更符合人类价值观。


五、Reinforcement Learning with Human Feedback (RLHF)篇

5.1 简单介绍一下 RLHF 流程?

RLHF流程包含三个核心步骤:

  1. 第一步:在预训练好的模型上进行有监督微调(SFT);
  2. 第二步:在有监督微调模型基础上创建一个奖励模型(Reward Model,RM);
  3. 第三步:基于RM模型使用PPO算法微调SFT模型;

📝通俗解释:RLHF的三步走战略:①先教会模型基础对话能力;②让模型学会给回答打分(评分员);③让模型自己练习答题,分数越高越好(自我进化)。

5.2 如何在预训练好的模型上进行有监督微调?

先收集一个Prompts集合,并要求标注人员写出高质量的回复,然后使用该数据集以监督的方式微调预训练的基础模型。

RLHF Step 1流程图 图片描述:流程从上到下:1. Sample prompt (示例: Explain the moon landing to a 6 year old ;2. Human writes response (示例: Some people went to the moon...);3. Supervised finetuning of pretrained LLM。右侧标注"Time & labor intensive"。)

📝通俗解释:第一步是「请人写答案」。找一堆人针对各种问题写出高质量回答,然后用这些数据来微调模型。这步很耗时但必不可少。

5.3 如何在有监督微调模型基础上创建一个RM模型?

对于每个Prompt,要求有监督微调后的LLM生成四到九个回复,再由标注人员根据个人偏好对所有回复进行排序。虽然排序过程很耗时,但工作量还是比第一步的有监督数据集构建要少一些。

RLHF Step 2流程图 图片描述:左侧显示SFT模型。右侧流程:1. Sample prompt;2. Collect model responses (生成A, B, C, D多个回复 ;3. Human ranks responses;4. Train reward model (Another LLM)。)

在处理排序数据时,奖励模型RM来自RLHF第一步的有监督微调语言模型(SFT),SFT的输出通过一个回归层(单个输出节点)转换为奖励分数,即可称为RM模型。

📝通俗解释:第二步是「训练评分员」。让模型针对同一个问题生成多个答案,然后让人给这些答案排序。模型学习的是:什么样的回答是好的,什么样的是不好的。这样模型就学会了给回答打分。

5.4 如何基于RM模型使用PPO算法微调SFT模型?

基于RM模型使用**近端策略优化(Proximal Policy Optimization,PPO)**算法微调SFT模型。

RLHF Step 3流程图 图片描述:左侧输入为Finetuned LLM (step 1 和Reward LLM (step 2)。右侧流程:1. Sample prompt;2. Generate output;3. Proximal policy optimization algorithm;4. RM评估;5. Calculate reward to update model。)

📝通俗解释:第三步是「让模型自我进化」。模型生成回答,RM给出分数,然后PPO算法根据分数调整模型参数。这个过程反复进行,模型越来越会给出高分的回答。

5.5 InstructGPT的原理,讲讲RLHF和Reward?

InstructGPT是一种基于强化学习的文本生成模型,其核心原理涉及两个概念:RLHF(从人类反馈中学习强化)Reward Shaping(奖励塑造)

  • RLHF:在训练InstructGPT时,首先使用人类生成的示例对模型进行预训练。然后,通过与人类评估者进行交互,收集评估结果,以创建一个用于强化学习的数据集。该数据集包含了人类评估者对生成结果的评分或反馈,用于指导模型的强化学习训练。

  • Reward Shaping:为了更好地引导模型的训练,Reward Shaping用于调整模型的奖励信号。通过将人类评估者的反馈与模型生成的文本进行比较,可以计算出一个差异度量,用作奖励信号的一部分。这样,模型可以根据这个奖励信号进行训练。模型根据当前的状态(对话历史)生成文本,并通过奖励信号来评估生成文本的质量。模型的目标是最大化预期累积奖励,从而生成更高质量的文本。

📝通俗解释:RLHF就像「因材施教」——老师(RM)根据学生(模型)的表现给打分(Reward),学生根据分数调整学习方法。Reward Shaping则是让打分更精准,比如不仅看答案对不对,还要看是否有帮助、是否安全。

通过RLHF和Reward Shaping的结合,InstructGPT能够通过人类评估者的反馈指导模型的生成过程,并逐步提升生成文本的质量和一致性。


六、LLaMA 2 的 RLHF 篇

6.1 介绍一下 LLaMA 2 的 RLHF?

Llama-2 RLHF流程图 图片描述:RLHF Step 1: Pretraining data → Self-supervised learning → Llama 2 → Supervised fine-tuning → Llama-2-chat。RLHF Step 2: Human Feedback → Human preference data → 训练Safety Reward Model和Helpful Reward Model。RLHF Step 3: Fine-tuning → Rejection Sampling + PPO → 迭代优化 → Llama-2-chat。

Llama-2-chat的RLHF相比标准RLHF有以下改进:

  1. 第一步RLHF微调使用相同的指令数据;
  2. 第二步使用了两个奖励模型(Helpfulness和Safety);
  3. 通过多个阶段的不断进化,奖励模型会根据Llama-2-chat模型出现的错误进行更新;
  4. 增加了**拒绝采样(Rejection Sampling)**步骤。

📝通俗解释:LLaMA 2的RLHF更聪明——它请了两个「老师」:一个教怎么更有用,一个教怎么更安全。而且它不是只学一次,而是反复学习(迭代优化),同时用两种方法(拒绝采样+PPO)让模型学得更好。

6.2 LLaMA 2 中 Margin Loss 的实现逻辑?

  • 标准InstructGPT中RLHF PPO方法思路:对同一个提示下的4-9个模型输出进行排序

    • 例如:四个回复的排序结果为A<C<D<B,那么可以得到六个对比结果:A < C,A < D,A < B,C < D,C < B,D < B
  • Llama 2的Margin Loss:每次只能看到两个(而非4-9个)回复进行对比,但新增了一个边际(margin)标签,对比结果可以为**「显著更好」(significantly better)「好的不明显」(negligibly better)**。

在排序训练时,Llama 2相比InstructGPT增加了边际损失:

$$ \mathcal{L}{\text{ranking}} = - \log \left( \sigma \left( r{\theta}(x, y_c) - r_{\theta}(x, y_r) - m(r) \right) \right) $$

其中:

  • $r_{\theta}(x, y)$ 是提示x和生成的回复y的标量分数输出
  • $\theta$ 为模型权重
  • $\sigma$ 是将层输出转换为0到1范围分数的逻辑S型函数
  • $y_c$ 是标注人员选择的更优回复
  • $y_r$ 是较差的回复
  • $m(r)$ 可以调节两个回复之间的差值,如果对比结果为「显著更好」,则会增加梯度值,加快更新速度

📝通俗解释:Margin Loss就像「更细心的评分标准」。传统方法是让模型比较一堆答案排出名次,LLaMA 2的方法是每次只比两个答案,而且要判断好多少:如果明显更好,就给更大的奖励;如果差不多,就给小奖励。这样学习更精准。

6.3 LLaMA 2 中两个RM模型的实现逻辑?

Llama 2中的两个奖励模型:

  • 侧重**「有用性」(Helpfulness)**
  • 侧重**「安全性」(Safety)**

用于模型优化的最终奖励函数会将两个分数进行线性组合

两个RM模型流程图 图片描述:左侧流程训练Helpfulness Reward Model,右侧流程训练Safety Reward Model。每个流程都是:输入提示 → 生成两个回复 → 人工标注(significantly better, better, slightly better, negligibly better)→ 训练对应的Reward Model。

📝通俗解释:两个RM模型就像「双导师」制度。一个老师只管答案有没有用,另一个老师只管回答是否安全。最终得分是两个老师分数的加权平均。这样模型既聪明又守规矩。

6.4 LLaMA 2 中 拒绝采样 逻辑?

Llama 2使用了一个训练流水线,同时使用PPO和拒绝采样算法,迭代地产生多个RLHF模型(从RLHF-V1到RLHF-V5)。

  • 拒绝采样:模型生成K个输出,使用最高奖励的输出更新梯度
  • PPO:每次只基于单样本进行更新

拒绝采样流程图 图片描述:流程为:Sample prompt → Generate outputs → Rejection sampling algorithm(生成多个候选输出)→ RM计算奖励分数 → 选择最高奖励的输出更新模型。

在监督微调的初始阶段之后,模型只使用拒绝采样进行训练,然后再结合拒绝采样和PPO。

📝通俗解释:拒绝采样就像「海选」。让模型针对一个问题生成多个答案,让RM打分,选最好的那个来训练模型。PPO则像「精益求精」,每次根据一个答案来调整。这样配合使用,效果更好。


七、RLHF 替代方案篇

7.1 为什么需要 RLHF 替代方案?

虽然RLHF在InstructGPT和Llama 2论文中被证明是有效的,但RLHF的过程比较复杂,存在以下挑战:

  1. 需要大量人工标注的偏好数据
  2. 训练过程不稳定,超级参数敏感
  3. 奖励模型可能存在「奖励黑客」(Reward Hacking)问题
  4. 计算资源消耗大

📝通俗解释:RLHF虽然效果好,但「太贵了」——需要找人打分、训练多个模型、反复调试。于是研究者们开始寻找更简单、更高效的方法。

7.2 RLHF 有哪些替代方案?

替代方案 1:Constitutional AI: Harmlessness from AI Feedback

论文名称:Constitutional AI: Harmlessness from AI Feedback 论文链接:https://arxiv.org/abs/2212.08073

论文提出了一种基于人类提供的规则列表的自我训练机制。与InstructGPT论文类似,也使用了强化学习方法。

Constitutional AI流程图 图片描述:两个主要阶段:1. 监督学习微调阶段:从Helpful RLHF Model开始,生成对"Red Teaming"提示的响应,进行Critique和Revision,得到Finetuned SL-CAI Model。2. 强化学习阶段:生成成对样本,使用Constitutional AI Feedback进行自我改进,训练Preference Model,最终得到Final RL-CAI Model。

上图中的「红队」(Red Team)指的是测试目标系统的防御能力,即外部或内部专家模拟潜在对手的过程,通过模仿现实世界攻击者的战术、技术和程序来挑战、测试并最终改进系统。

📝通俗解释:Constitutional AI让模型自己当自己的老师。它先学一堆规则(比如「不能回答有害问题」),然后自己生成问题、自己批评自己的回答、自己改进。这样就不用大量人工标注了。

替代方案 2:The Wisdom of Hindsight Makes Language Models Better Instruction Followers

论文名称:The Wisdom of Hindsight Makes Language Models Better Instruction Followers 论文链接:https://arxiv.org/abs/2302.05206

论文提出了一种基于重新标记的监督微调方法HIR(Hindsight Instruction Relabeling),该方法在12个BigBench任务上优于RLHF。

HIR是如何工作的? 简而言之,HIR方法包括两个步骤,即采样和训练:

  1. 采样步骤:Prompt和指令输入给LLM来获取答案
  2. 训练步骤:根据对齐得分,在训练阶段适当的地方重新标注指令;然后重新标记的指令和原始的Prompt用于微调LLM

使用这种重新标记的方法,研究人员有效地将失败案例(LLM创建的输出与原始指令不匹配的案例)转化为有用的训练数据。

HIR效果对比图 图片描述:柱状图显示平均性能:No Training为26.8,PPO为34.7,FARL为56.1,HIR为67.3。HIR显著优于其他基线方法。

📝通俗解释:HIR就像「亡羊补牢」——模型没做对没关系,把错误答案改成「其实题目是让你这样做」,然后当正确答案来训练。这样失败的经验也能变成学习材料。

替代方案 3:Direct Preference Optimization: Your Language Model is Secretly a Reward Model

论文名称:Direct Preference Optimization: Your Language Model is Secretly a Reward Model 论文链接:https://arxiv.org/abs/2305.18290

**直接偏好优化(DPO)**是具有PPO的RLHF的替代方案。研究人员表明,在RLHF中拟合奖励模型的交叉熵损失可以直接用于微调LLM。根据基准测试,使用DPO更有效,而且在响应质量方面通常也优于RLHF/PPO。

方法DPOSFTPPO-1
N respondents272122199
GPT-4 (S) win %472713
GPT-4 (C) win %543212
Human win %584317

RLHF与DPO流程对比 图片描述:左侧RLHF流程:preference data → reward model → LM policy → reinforcement learning。右侧DPO流程:preference data → final LM,直接用最大似然优化。

📝通俗解释:DPO就像「抄近道」。传统RLHF要训练奖励模型、再用PPO更新策略,步骤繁琐。DPO直接用偏好数据训练语言模型,省掉了中间环节,效果反而更好。

替代方案 4:Reinforced Self-Training (ReST) for Language Modeling

论文名称:Reinforced Self-Training (ReST) for Language Modeling 论文链接:https://arxiv.org/abs/2308.08998

ReST是人类反馈强化学习(RLHF)的一种替代方案,它使LLM与人类偏好保持一致。ReST使用采样方法创建改进的数据集,在质量越来越高的子集上迭代训练,以完善其奖励函数。

ReST流程图 图片描述:两个主要步骤:Grow(生成新的采样数据集)和Improve(过滤+微调)。这是一个迭代过程,包含G-step和I-step的循环。

根据作者的说法,与标准的在线RLHF方法(如具有近端策略优化的RLHF,PPO)相比,ReST通过离线生成训练数据集实现了更高的效率。

📝通俗解释:ReST就像「自学成才」。模型自己生成答案,自己筛选出好的答案,然后用这些好答案继续训练。一轮轮筛选,答案质量越来越高。

替代方案 5:RLAIF: Scaling Reinforcement Learning from Human Feedback with AI Feedback

论文名称:RLAIF: Scaling Reinforcement Learning from Human Feedback with AI Feedback 论文链接:https://arxiv.org/abs/2309.00267

RLAIF(人工智能反馈强化学习)研究表明,RLHF中奖励模型训练的评级不一定必须由人类提供,可以由LLM生成。标注人员在一半的案例中更喜欢RLAIF模型,意味着两个模型的差距并不大。RLHF和RLAIF都大大优于纯通过监督指令微调训练的模型。

RLHF与RLAIF对比流程图 图片描述:上方为RLAIF流程:SFT Model生成样本 → Off-the-shelf LLM评分 → 训练RM from AI Feedback → RL with AI Feedback。下方为传统RLHF流程:SFT Model生成样本 → Human评分 → 训练RM from Human Feedback → RL with Human Feedback。

RLAIF vs RLHF胜率对比 图片描述:左侧柱状图:RLHF胜率73%,RLAIF胜率71%,都远超SFT。右侧柱状图:RLHF相对于RLAIF胜率50%。

📝通俗解释:RLAIF让AI来代替人类打分。不用找人标注答案了,直接用另一个AI来评价回答质量。研究发现AI打的分和人类打的分差不多,这样训练成本大大降低。


八、RLHF 实践篇

8.1 RLHF 训练过程,怎么选取最优 checkpoint?

8.1.1 动机

RLHF训练过程中,因为Reward Model输出的只是一个近似奖励(Proxy Reward),导致不能完全相信训练过程中的Reward变化。「更高」的Reward不一定意味着「更好」的效果。

RM Score vs KL distance折线图 图片描述:横轴为KL distance (0-100 ,纵轴为RM Score (0.0-1.4)。虚线为Proxy(近似奖励),实线为Gold(真实奖励)。随着KL增加,Proxy分数持续上升,但Gold分数先升后降,在某个KL值处达到峰值后下降。)

  • 横轴为训练模型与初始模型之间的KL(可简单理解为差异)
  • 虚线是近似Reward(RM打出的分数)
  • 实线是真实Reward(大多数情况下无法直接获得)

从上图可以看到:随着「训练模型」和「初始模型」之间的KL越大,模型的「真实分数」会先逐步提升,到达某个峰值后逐渐减小(实线),但「近似分数」却一直在稳步上升(虚线)。显然,「真实分数」曲线的「最高点」就是我们所期望得到的「最优模型」

但问题是:根本无法获得「真实分数」,该如何找到这个「最高点」呢?

📝通俗解释:就像考试时有个「参考答案」——但这个参考答案有时候会出错(这就是Proxy Reward)。模型训练时间越长,分数看起来越高(参考答案给的),但实际真实水平(真实Reward)可能已经开始下降了。我们需要找到真实水平的最高点。

8.1.2 真实Reward的估算公式

我们假定:真实Reward曲线与「当前模型和初始模型」之间的KL存在某种关系。

由于KL是一个可以被实时计算的数值,如果我们能够找出这种存在的「关系」,那我们就能找出真实Reward的最高点对应的KL值是多少,从而找出最优模型。

OpenAI找到了这个计算公式:

对于Best-of-N(BoN)采样: $$ R_{\text{bon}}(d) = d \left( \alpha_{\text{bon}} - \beta_{\text{bon}} d \right) $$

对于强化学习(RL): $$ R_{\text{RL}}(d) = d \left( \alpha_{\text{RL}} - \beta_{\text{RL}} \log d \right) $$

其中:

  • BON(Best-of-N):也叫Reject Sampling,先让模型生成一堆response,再利用RM从中挑出最好的几个回复用于后续模型训练
  • d:被定义为初始模型和当前模型的KL开根号
  • α和β:跟「Reward Model大小」和「Reward Model训练数据规模」等因素有关

📝通俗解释:这个公式就像找到一个「作弊器」——虽然我们不知道真实分数,但可以通过KL值和RM大小估算出来。公式里的α和β是经验值,跟RM的大小有关。

8.1.3 α和β的值

为了探究RM的大小和α、β之间的关系,实验中固定了Actor模型的大小(1.2B)、训练RM所用的数据集大小(9w条)。

α和β与RM大小关系图 图片描述:左图α_bon随RM Size增大而线性上升(从0.5到0.65);右图β_bon随RM Size增大而线性下降(从0.12到0.09)。

不同RM规模对应的α和β的值:

RM规模αβ
0.01B (10M)0.50.12
0.1B (100M)0.60.108
1B0.650.09

将上述参数代入R_bon(d)公式,绘制reward曲线图:

不同RM规模下的Reward曲线 图片描述:折线图,横轴为KL Divergence (d ,纵轴为RM Score。三条曲线分别代表0.01B(蓝色)、0.1B(橙色)、1B(绿色)。1B曲线最高且下降最晚,0.01B曲线最低且下降最早。)

从图中可以得出以下结论:

  1. 相同训练数据下,Reward Model越大,Actor模型能够获得更高的真实Reward
  2. Reward Model越大,能够支持模型在「不偏离真实奖励的路途上走更远」,即在更大的KL处发生下降转折

📝通俗解释:RM越大,「作弊器」越准。小的RM会让模型「走偏」得更早(真实Reward更早下降),大的RM可以让模型在正确的道路上走更远。

8.1.4 Reward Model训练数据集的Scaling Law

为了探究RM Dataset的规模对最终模型的影响,实验中固定在12M的RM下进行实验:

RM Dataset Scaling Law 图片描述:包含两张子图,左图为BoN方法,右图为RL方法。横轴为KL distance,纵轴为RM Score。不同颜色的线代表不同的Data Size (250到16000 。)

从上图中可以看到:

  • RM数据集越大,对最终的提升就越大
  • 数据集最少需要超过2000
  • 如果训练数据量低于2k,无论RM在哪个规模、无论使用BON还是RL,对模型最终的提升都非常小

📝通俗解释:训练RM也需要「题海战术」。数据太少(<2000条),RM学不会怎么打分;数据越多,RM打分越准。

8.1.5 Policy Model的Scaling Law

探究Policy Model的大小对最终效果的影响。文中选用1.2B和6B这两个大小的模型进行对比,固定RM大小为12M:

Policy Model Scaling Law 图片描述:两张子图,左图为BoN方法,右图为RL方法。横轴为KL distance,纵轴为RM Score。图例显示1.2B和6B两种Policy Size。

从上图可以得出2个结论:

  1. Policy Model越大,利用RM做提升的收益就越小:在BON下,1.2B模型提升约0.7分,6B模型提升约0.35分。不过这是因为越大的模型初始分就较高导致提升没有那么大,绝对分数上来看还是模型越大越好的

  2. 无论模型规模如何,最优Reward对应的KL值是一样的:这一点比较反直觉,通常会认为较大的模型应该能够更快地hacking掉reward model,应该在更小的KL处就达到最高的reward峰值,但实验结果并非如此。

📝通俗解释:大模型「自学」能力已经很强了,所以RM能帮上忙的空间就小了。但不管模型大小,找到最优点的KL值是类似的。这意味着我们可以用类似的方法来选择最优checkpoint。


参考资料

  1. InstructGPT论文
  2. LLaMA 2论文
  3. Constitutional AI论文
  4. HIR论文
  5. DPO论文
  6. ReST论文
  7. RLAIF论文
  8. OpenAI RLHF相关研究

整理说明:本文档对原始笔记进行了以下优化:

  1. 修正了"Supervised Tinetuning"等拼写错误
  2. 规范化了术语翻译(如PPO统一为"近端策略优化")
  3. 补充了部分未完整的内容
  4. 为重要概念添加了通俗解释
  5. 优化了格式和图表描述

基于 MIT 许可发布