大模型（LLMs）强化学习——RLHF及其变种

来源：AiGC面试宝典作者：宁静致远日期：2024年01月27日

一、介绍一下 LLM的经典预训练Pipeline？

目前基于Transformer decoder的LLM，比如ChatGPT、LLaMA、Baichuan等，通常都会有基于预训练的base模型和在base模型基础上使用RLHF微调的Chat模型，Chat模型的训练一般包括如下三个步骤：预训练、有监督微调和对齐。

预训练阶段：模型从大量无标注文本数据集中学习通用知识；
有监督微调阶段：使用人工标注的指令数据集优化模型，使其更好地遵守特定指令；
对齐阶段：通过对齐技术使LLM更有用且更安全地响应用户提示。

📝通俗解释：想象培养一个全能助手的过程：预训练就像让一个人博览群书（自学大量知识）；有监督微调就像请老师傅手把手教具体技能（用标注好的例子学习）；对齐阶段就像进行职业道德培训（让模型更懂人心、更安全）。

二、预训练（Pre-training）篇

2.1 具体介绍一下预训练（Pre-training）？

预训练（Pre-training）：利用数十亿到数万亿个token的庞大文本语料库对模型进行训练，使模型能够根据提供的文本预测「下一个单词」。

项目	说明
数据规模	100B 到 >5T tokens
任务	Next-token prediction（预测下一个词）
输出	base model / "foundation model"

📝通俗解释：预训练就像让模型做「完形填空」练习。给模型一段文字，它要预测下一个最可能出现的词。通过阅读海量的文本，模型逐渐学会语言的规律和知识。

三、有监督微调（Supervised Finetuning）篇

3.1 具体介绍一下有监督微调（Supervised Finetuning）？

有监督微调（Supervised Finetuning）：虽然SFT训练目标和预训练类似，也是需要模型预测「下一个单词」，但使用的是人工标注的指令数据集。其中模型的输入是一个指令（根据任务的不同，也可能包含一段输入文本），输出为模型的预期回复内容。

项目	说明
数据规模	通常 1k-50k 条指令-响应对
任务	同样是 next-token prediction
特点	需要人工标注的高质量问答数据

📝通俗解释：预训练是自学成才，有监督微调则是「请家教」。给模型出具体的题目（如「写一首关于鹈鹕的打油诗」），再告诉它正确答案，让模型学会按人类期望的方式回答问题。

3.2 有监督微调（Supervised Finetuning）的训练数据格式是什么样？

json

{
  "instruction": "Write a limerick about a pelican.",
  "input": "",
  "output": "There once was a pelican so fine,\nHis beak was as colorful as sunshine,\nHe would fish all day,\nIn a very unique way,\nThis pelican was truly divine!"
},
{
  "instruction": "Identify the odd one out from the group.",
  "input": "Carrot, Apple, Banana, Grape",
  "output": "Carrot"
}

模型会把"Write a limerick about a pelican"作为输入，逐个token进行预测，输出"There once was a pelican so fine..."

📝通俗解释：训练数据格式就像一道道「问答题」。instruction是问题，output是标准答案。模型学习的是：看到这个问题，应该这样回答。

3.3 预训练（Pre-training）vs 有监督微调（Supervised Finetuning）区别？

对比项	预训练（Pre-training）	有监督微调（SFT）
训练目标	相同：预测下一个单词	相同：预测下一个单词
数据量	数十亿到数万亿tokens	通常1k-50k条
数据格式	无标注的原始文本	人工标注的指令-响应对
数据来源	互联网海量文本	人工标注

📝通俗解释：预训练像在图书馆自学（有书就行），有监督微调像上补习班（有老师教）。两者学习方式相似，但学习的材料和学习深度不同。

四、对齐（Alignment）篇

4.1 简单介绍一下对齐（Alignment）？

对齐（Alignment）：通过微调的方式，将语言模型与人类的偏好、价值观进行对齐，这也是RLHF机制发挥的地方。

对齐效果示意图 图片描述：左侧为Alignment框图，内容包括Align with human preferences、Usually reinforcement learning with human feedback (RLHF 、>50k examples。右侧为折线图，显示RLHF在不同模型大小下的Win rate，均优于SFT和Prompting方法。)

实验数据表明：使用RLHF微调的模型（如GPT-3 + supervised FT + RLHF）在各个规模上都显著优于单纯的提示工程（Prompting）和有监督微调。

📝通俗解释：对齐就像给模型「洗脑」——让它学会按人类喜欢的方式做事。比如同样的问题，模型不仅要答对，还要答得更有帮助、更安全、更符合人类价值观。

五、Reinforcement Learning with Human Feedback (RLHF)篇

5.1 简单介绍一下 RLHF 流程？

RLHF流程包含三个核心步骤：

第一步：在预训练好的模型上进行有监督微调（SFT）；
第二步：在有监督微调模型基础上创建一个奖励模型（Reward Model，RM）；
第三步：基于RM模型使用PPO算法微调SFT模型；

📝通俗解释：RLHF的三步走战略：①先教会模型基础对话能力；②让模型学会给回答打分（评分员）；③让模型自己练习答题，分数越高越好（自我进化）。

5.2 如何在预训练好的模型上进行有监督微调？

先收集一个Prompts集合，并要求标注人员写出高质量的回复，然后使用该数据集以监督的方式微调预训练的基础模型。

RLHF Step 1流程图 图片描述：流程从上到下：1. Sample prompt (示例: Explain the moon landing to a 6 year old ；2. Human writes response (示例: Some people went to the moon...)；3. Supervised finetuning of pretrained LLM。右侧标注"Time & labor intensive"。)

📝通俗解释：第一步是「请人写答案」。找一堆人针对各种问题写出高质量回答，然后用这些数据来微调模型。这步很耗时但必不可少。

5.3 如何在有监督微调模型基础上创建一个RM模型？

对于每个Prompt，要求有监督微调后的LLM生成四到九个回复，再由标注人员根据个人偏好对所有回复进行排序。虽然排序过程很耗时，但工作量还是比第一步的有监督数据集构建要少一些。

RLHF Step 2流程图 图片描述：左侧显示SFT模型。右侧流程：1. Sample prompt；2. Collect model responses (生成A, B, C, D多个回复；3. Human ranks responses；4. Train reward model (Another LLM)。)

在处理排序数据时，奖励模型RM来自RLHF第一步的有监督微调语言模型（SFT），SFT的输出通过一个回归层（单个输出节点）转换为奖励分数，即可称为RM模型。

📝通俗解释：第二步是「训练评分员」。让模型针对同一个问题生成多个答案，然后让人给这些答案排序。模型学习的是：什么样的回答是好的，什么样的是不好的。这样模型就学会了给回答打分。

5.4 如何基于RM模型使用PPO算法微调SFT模型？

基于RM模型使用**近端策略优化（Proximal Policy Optimization，PPO）**算法微调SFT模型。

RLHF Step 3流程图 图片描述：左侧输入为Finetuned LLM (step 1 和Reward LLM (step 2)。右侧流程：1. Sample prompt；2. Generate output；3. Proximal policy optimization algorithm；4. RM评估；5. Calculate reward to update model。)

📝通俗解释：第三步是「让模型自我进化」。模型生成回答，RM给出分数，然后PPO算法根据分数调整模型参数。这个过程反复进行，模型越来越会给出高分的回答。

5.5 InstructGPT的原理，讲讲RLHF和Reward？

InstructGPT是一种基于强化学习的文本生成模型，其核心原理涉及两个概念：RLHF（从人类反馈中学习强化）和Reward Shaping（奖励塑造）。

RLHF：在训练InstructGPT时，首先使用人类生成的示例对模型进行预训练。然后，通过与人类评估者进行交互，收集评估结果，以创建一个用于强化学习的数据集。该数据集包含了人类评估者对生成结果的评分或反馈，用于指导模型的强化学习训练。
Reward Shaping：为了更好地引导模型的训练，Reward Shaping用于调整模型的奖励信号。通过将人类评估者的反馈与模型生成的文本进行比较，可以计算出一个差异度量，用作奖励信号的一部分。这样，模型可以根据这个奖励信号进行训练。模型根据当前的状态（对话历史）生成文本，并通过奖励信号来评估生成文本的质量。模型的目标是最大化预期累积奖励，从而生成更高质量的文本。

📝通俗解释：RLHF就像「因材施教」——老师（RM）根据学生（模型）的表现给打分（Reward），学生根据分数调整学习方法。Reward Shaping则是让打分更精准，比如不仅看答案对不对，还要看是否有帮助、是否安全。

通过RLHF和Reward Shaping的结合，InstructGPT能够通过人类评估者的反馈指导模型的生成过程，并逐步提升生成文本的质量和一致性。

六、LLaMA 2 的 RLHF 篇

6.1 介绍一下 LLaMA 2 的 RLHF？

Llama-2 RLHF流程图 图片描述：RLHF Step 1: Pretraining data → Self-supervised learning → Llama 2 → Supervised fine-tuning → Llama-2-chat。RLHF Step 2: Human Feedback → Human preference data → 训练Safety Reward Model和Helpful Reward Model。RLHF Step 3: Fine-tuning → Rejection Sampling + PPO → 迭代优化 → Llama-2-chat。

Llama-2-chat的RLHF相比标准RLHF有以下改进：

第一步RLHF微调使用相同的指令数据；
第二步使用了两个奖励模型（Helpfulness和Safety）；
通过多个阶段的不断进化，奖励模型会根据Llama-2-chat模型出现的错误进行更新；
增加了**拒绝采样（Rejection Sampling）**步骤。

📝通俗解释：LLaMA 2的RLHF更聪明——它请了两个「老师」：一个教怎么更有用，一个教怎么更安全。而且它不是只学一次，而是反复学习（迭代优化），同时用两种方法（拒绝采样+PPO）让模型学得更好。

6.2 LLaMA 2 中 Margin Loss 的实现逻辑？

标准InstructGPT中RLHF PPO方法思路：对同一个提示下的4-9个模型输出进行排序。
- 例如：四个回复的排序结果为A<C<D<B，那么可以得到六个对比结果：A < C，A < D，A < B，C < D，C < B，D < B
Llama 2的Margin Loss：每次只能看到两个（而非4-9个）回复进行对比，但新增了一个边际（margin）标签，对比结果可以为**「显著更好」（significantly better）和「好的不明显」（negligibly better）**。

在排序训练时，Llama 2相比InstructGPT增加了边际损失：

$$ \mathcal{L}{\text{ranking}} = - \log \left( \sigma \left( r{\theta}(x, y_c) - r_{\theta}(x, y_r) - m(r) \right) \right) $$

其中：

$r_{\theta}(x, y)$ 是提示x和生成的回复y的标量分数输出
$\theta$ 为模型权重
$\sigma$ 是将层输出转换为0到1范围分数的逻辑S型函数
$y_c$ 是标注人员选择的更优回复
$y_r$ 是较差的回复
$m(r)$ 可以调节两个回复之间的差值，如果对比结果为「显著更好」，则会增加梯度值，加快更新速度

📝通俗解释：Margin Loss就像「更细心的评分标准」。传统方法是让模型比较一堆答案排出名次，LLaMA 2的方法是每次只比两个答案，而且要判断好多少：如果明显更好，就给更大的奖励；如果差不多，就给小奖励。这样学习更精准。

6.3 LLaMA 2 中两个RM模型的实现逻辑？

Llama 2中的两个奖励模型：

侧重**「有用性」（Helpfulness）**
侧重**「安全性」（Safety）**

用于模型优化的最终奖励函数会将两个分数进行线性组合。

两个RM模型流程图 图片描述：左侧流程训练Helpfulness Reward Model，右侧流程训练Safety Reward Model。每个流程都是：输入提示 → 生成两个回复 → 人工标注（significantly better, better, slightly better, negligibly better）→ 训练对应的Reward Model。

📝通俗解释：两个RM模型就像「双导师」制度。一个老师只管答案有没有用，另一个老师只管回答是否安全。最终得分是两个老师分数的加权平均。这样模型既聪明又守规矩。

6.4 LLaMA 2 中拒绝采样逻辑？

Llama 2使用了一个训练流水线，同时使用PPO和拒绝采样算法，迭代地产生多个RLHF模型（从RLHF-V1到RLHF-V5）。

拒绝采样：模型生成K个输出，使用最高奖励的输出更新梯度
PPO：每次只基于单样本进行更新

拒绝采样流程图 图片描述：流程为：Sample prompt → Generate outputs → Rejection sampling algorithm（生成多个候选输出）→ RM计算奖励分数 → 选择最高奖励的输出更新模型。

在监督微调的初始阶段之后，模型只使用拒绝采样进行训练，然后再结合拒绝采样和PPO。

📝通俗解释：拒绝采样就像「海选」。让模型针对一个问题生成多个答案，让RM打分，选最好的那个来训练模型。PPO则像「精益求精」，每次根据一个答案来调整。这样配合使用，效果更好。

七、RLHF 替代方案篇

7.1 为什么需要 RLHF 替代方案？

虽然RLHF在InstructGPT和Llama 2论文中被证明是有效的，但RLHF的过程比较复杂，存在以下挑战：

需要大量人工标注的偏好数据
训练过程不稳定，超级参数敏感
奖励模型可能存在「奖励黑客」（Reward Hacking）问题
计算资源消耗大

📝通俗解释：RLHF虽然效果好，但「太贵了」——需要找人打分、训练多个模型、反复调试。于是研究者们开始寻找更简单、更高效的方法。

7.2 RLHF 有哪些替代方案？

替代方案 1：Constitutional AI: Harmlessness from AI Feedback

论文名称：Constitutional AI: Harmlessness from AI Feedback 论文链接：https://arxiv.org/abs/2212.08073

论文提出了一种基于人类提供的规则列表的自我训练机制。与InstructGPT论文类似，也使用了强化学习方法。

Constitutional AI流程图 图片描述：两个主要阶段：1. 监督学习微调阶段：从Helpful RLHF Model开始，生成对"Red Teaming"提示的响应，进行Critique和Revision，得到Finetuned SL-CAI Model。2. 强化学习阶段：生成成对样本，使用Constitutional AI Feedback进行自我改进，训练Preference Model，最终得到Final RL-CAI Model。

上图中的「红队」（Red Team）指的是测试目标系统的防御能力，即外部或内部专家模拟潜在对手的过程，通过模仿现实世界攻击者的战术、技术和程序来挑战、测试并最终改进系统。

📝通俗解释：Constitutional AI让模型自己当自己的老师。它先学一堆规则（比如「不能回答有害问题」），然后自己生成问题、自己批评自己的回答、自己改进。这样就不用大量人工标注了。

替代方案 2：The Wisdom of Hindsight Makes Language Models Better Instruction Followers

论文名称：The Wisdom of Hindsight Makes Language Models Better Instruction Followers 论文链接：https://arxiv.org/abs/2302.05206

论文提出了一种基于重新标记的监督微调方法HIR（Hindsight Instruction Relabeling），该方法在12个BigBench任务上优于RLHF。

HIR是如何工作的？ 简而言之，HIR方法包括两个步骤，即采样和训练：

采样步骤：Prompt和指令输入给LLM来获取答案
训练步骤：根据对齐得分，在训练阶段适当的地方重新标注指令；然后重新标记的指令和原始的Prompt用于微调LLM

使用这种重新标记的方法，研究人员有效地将失败案例（LLM创建的输出与原始指令不匹配的案例）转化为有用的训练数据。

HIR效果对比图 图片描述：柱状图显示平均性能：No Training为26.8，PPO为34.7，FARL为56.1，HIR为67.3。HIR显著优于其他基线方法。

📝通俗解释：HIR就像「亡羊补牢」——模型没做对没关系，把错误答案改成「其实题目是让你这样做」，然后当正确答案来训练。这样失败的经验也能变成学习材料。

替代方案 3：Direct Preference Optimization: Your Language Model is Secretly a Reward Model

论文名称：Direct Preference Optimization: Your Language Model is Secretly a Reward Model 论文链接：https://arxiv.org/abs/2305.18290

**直接偏好优化（DPO）**是具有PPO的RLHF的替代方案。研究人员表明，在RLHF中拟合奖励模型的交叉熵损失可以直接用于微调LLM。根据基准测试，使用DPO更有效，而且在响应质量方面通常也优于RLHF/PPO。

方法	DPO	SFT	PPO-1
N respondents	272	122	199
GPT-4 (S) win %	47	27	13
GPT-4 (C) win %	54	32	12
Human win %	58	43	17

RLHF与DPO流程对比 图片描述：左侧RLHF流程：preference data → reward model → LM policy → reinforcement learning。右侧DPO流程：preference data → final LM，直接用最大似然优化。

📝通俗解释：DPO就像「抄近道」。传统RLHF要训练奖励模型、再用PPO更新策略，步骤繁琐。DPO直接用偏好数据训练语言模型，省掉了中间环节，效果反而更好。

替代方案 4：Reinforced Self-Training (ReST) for Language Modeling

论文名称：Reinforced Self-Training (ReST) for Language Modeling 论文链接：https://arxiv.org/abs/2308.08998

ReST是人类反馈强化学习（RLHF）的一种替代方案，它使LLM与人类偏好保持一致。ReST使用采样方法创建改进的数据集，在质量越来越高的子集上迭代训练，以完善其奖励函数。

ReST流程图 图片描述：两个主要步骤：Grow（生成新的采样数据集）和Improve（过滤+微调）。这是一个迭代过程，包含G-step和I-step的循环。

根据作者的说法，与标准的在线RLHF方法（如具有近端策略优化的RLHF，PPO）相比，ReST通过离线生成训练数据集实现了更高的效率。

📝通俗解释：ReST就像「自学成才」。模型自己生成答案，自己筛选出好的答案，然后用这些好答案继续训练。一轮轮筛选，答案质量越来越高。

替代方案 5：RLAIF: Scaling Reinforcement Learning from Human Feedback with AI Feedback

论文名称：RLAIF: Scaling Reinforcement Learning from Human Feedback with AI Feedback 论文链接：https://arxiv.org/abs/2309.00267

RLAIF（人工智能反馈强化学习）研究表明，RLHF中奖励模型训练的评级不一定必须由人类提供，可以由LLM生成。标注人员在一半的案例中更喜欢RLAIF模型，意味着两个模型的差距并不大。RLHF和RLAIF都大大优于纯通过监督指令微调训练的模型。

RLHF与RLAIF对比流程图 图片描述：上方为RLAIF流程：SFT Model生成样本 → Off-the-shelf LLM评分 → 训练RM from AI Feedback → RL with AI Feedback。下方为传统RLHF流程：SFT Model生成样本 → Human评分 → 训练RM from Human Feedback → RL with Human Feedback。

RLAIF vs RLHF胜率对比 图片描述：左侧柱状图：RLHF胜率73%，RLAIF胜率71%，都远超SFT。右侧柱状图：RLHF相对于RLAIF胜率50%。

📝通俗解释：RLAIF让AI来代替人类打分。不用找人标注答案了，直接用另一个AI来评价回答质量。研究发现AI打的分和人类打的分差不多，这样训练成本大大降低。

八、RLHF 实践篇

8.1 RLHF 训练过程，怎么选取最优 checkpoint？

8.1.1 动机

RLHF训练过程中，因为Reward Model输出的只是一个近似奖励（Proxy Reward），导致不能完全相信训练过程中的Reward变化。「更高」的Reward不一定意味着「更好」的效果。

RM Score vs KL distance折线图 图片描述：横轴为KL distance (0-100 ，纵轴为RM Score (0.0-1.4)。虚线为Proxy（近似奖励），实线为Gold（真实奖励）。随着KL增加，Proxy分数持续上升，但Gold分数先升后降，在某个KL值处达到峰值后下降。)

横轴为训练模型与初始模型之间的KL（可简单理解为差异）
虚线是近似Reward（RM打出的分数）
实线是真实Reward（大多数情况下无法直接获得）

从上图可以看到：随着「训练模型」和「初始模型」之间的KL越大，模型的「真实分数」会先逐步提升，到达某个峰值后逐渐减小（实线），但「近似分数」却一直在稳步上升（虚线）。显然，「真实分数」曲线的「最高点」就是我们所期望得到的「最优模型」。

但问题是：根本无法获得「真实分数」，该如何找到这个「最高点」呢？

📝通俗解释：就像考试时有个「参考答案」——但这个参考答案有时候会出错（这就是Proxy Reward）。模型训练时间越长，分数看起来越高（参考答案给的），但实际真实水平（真实Reward）可能已经开始下降了。我们需要找到真实水平的最高点。

8.1.2 真实Reward的估算公式

我们假定：真实Reward曲线与「当前模型和初始模型」之间的KL存在某种关系。

由于KL是一个可以被实时计算的数值，如果我们能够找出这种存在的「关系」，那我们就能找出真实Reward的最高点对应的KL值是多少，从而找出最优模型。

OpenAI找到了这个计算公式：

对于Best-of-N（BoN）采样： $$ R_{\text{bon}}(d) = d \left( \alpha_{\text{bon}} - \beta_{\text{bon}} d \right) $$

对于强化学习（RL）： $$ R_{\text{RL}}(d) = d \left( \alpha_{\text{RL}} - \beta_{\text{RL}} \log d \right) $$

其中：

BON（Best-of-N）：也叫Reject Sampling，先让模型生成一堆response，再利用RM从中挑出最好的几个回复用于后续模型训练
d：被定义为初始模型和当前模型的KL开根号
α和β：跟「Reward Model大小」和「Reward Model训练数据规模」等因素有关

📝通俗解释：这个公式就像找到一个「作弊器」——虽然我们不知道真实分数，但可以通过KL值和RM大小估算出来。公式里的α和β是经验值，跟RM的大小有关。

8.1.3 α和β的值

为了探究RM的大小和α、β之间的关系，实验中固定了Actor模型的大小（1.2B）、训练RM所用的数据集大小（9w条）。

α和β与RM大小关系图 图片描述：左图α_bon随RM Size增大而线性上升（从0.5到0.65）；右图β_bon随RM Size增大而线性下降（从0.12到0.09）。

不同RM规模对应的α和β的值：

RM规模	α	β
0.01B (10M)	0.5	0.12
0.1B (100M)	0.6	0.108
1B	0.65	0.09

将上述参数代入R_bon(d)公式，绘制reward曲线图：

不同RM规模下的Reward曲线 图片描述：折线图，横轴为KL Divergence (d ，纵轴为RM Score。三条曲线分别代表0.01B（蓝色）、0.1B（橙色）、1B（绿色）。1B曲线最高且下降最晚，0.01B曲线最低且下降最早。)

从图中可以得出以下结论：

相同训练数据下，Reward Model越大，Actor模型能够获得更高的真实Reward
Reward Model越大，能够支持模型在「不偏离真实奖励的路途上走更远」，即在更大的KL处发生下降转折

📝通俗解释：RM越大，「作弊器」越准。小的RM会让模型「走偏」得更早（真实Reward更早下降），大的RM可以让模型在正确的道路上走更远。

8.1.4 Reward Model训练数据集的Scaling Law

为了探究RM Dataset的规模对最终模型的影响，实验中固定在12M的RM下进行实验：

RM Dataset Scaling Law 图片描述：包含两张子图，左图为BoN方法，右图为RL方法。横轴为KL distance，纵轴为RM Score。不同颜色的线代表不同的Data Size (250到16000 。)

从上图中可以看到：

RM数据集越大，对最终的提升就越大
数据集最少需要超过2000条
如果训练数据量低于2k，无论RM在哪个规模、无论使用BON还是RL，对模型最终的提升都非常小

📝通俗解释：训练RM也需要「题海战术」。数据太少（<2000条），RM学不会怎么打分；数据越多，RM打分越准。

8.1.5 Policy Model的Scaling Law

探究Policy Model的大小对最终效果的影响。文中选用1.2B和6B这两个大小的模型进行对比，固定RM大小为12M：

Policy Model Scaling Law 图片描述：两张子图，左图为BoN方法，右图为RL方法。横轴为KL distance，纵轴为RM Score。图例显示1.2B和6B两种Policy Size。

从上图可以得出2个结论：

Policy Model越大，利用RM做提升的收益就越小：在BON下，1.2B模型提升约0.7分，6B模型提升约0.35分。不过这是因为越大的模型初始分就较高导致提升没有那么大，绝对分数上来看还是模型越大越好的。
无论模型规模如何，最优Reward对应的KL值是一样的：这一点比较反直觉，通常会认为较大的模型应该能够更快地hacking掉reward model，应该在更小的KL处就达到最高的reward峰值，但实验结果并非如此。

📝通俗解释：大模型「自学」能力已经很强了，所以RM能帮上忙的空间就小了。但不管模型大小，找到最优点的KL值是类似的。这意味着我们可以用类似的方法来选择最优checkpoint。

参考资料

InstructGPT论文
LLaMA 2论文
Constitutional AI论文
HIR论文
DPO论文
ReST论文
RLAIF论文
OpenAI RLHF相关研究

整理说明：本文档对原始笔记进行了以下优化：
修正了"Supervised Tinetuning"等拼写错误
规范化了术语翻译（如PPO统一为"近端策略优化"）
补充了部分未完整的内容
为重要概念添加了通俗解释
优化了格式和图表描述

大模型（LLMs）强化学习——RLHF及其变种 ​

一、介绍一下 LLM的经典预训练Pipeline？ ​

二、预训练（Pre-training）篇 ​

2.1 具体介绍一下 预训练（Pre-training）？ ​

三、有监督微调（Supervised Finetuning）篇 ​

3.1 具体介绍一下 有监督微调（Supervised Finetuning）？ ​

3.2 有监督微调（Supervised Finetuning）的训练数据格式是什么样？ ​

3.3 预训练（Pre-training）vs 有监督微调（Supervised Finetuning）区别？ ​

四、对齐（Alignment）篇 ​

4.1 简单介绍一下 对齐（Alignment）？ ​

五、Reinforcement Learning with Human Feedback (RLHF)篇 ​

5.1 简单介绍一下 RLHF 流程？ ​

5.2 如何在预训练好的模型上进行有监督微调？ ​

5.3 如何在有监督微调模型基础上创建一个RM模型？ ​

5.4 如何基于RM模型使用PPO算法微调SFT模型？ ​

5.5 InstructGPT的原理，讲讲RLHF和Reward？ ​

六、LLaMA 2 的 RLHF 篇 ​

6.1 介绍一下 LLaMA 2 的 RLHF？ ​

6.2 LLaMA 2 中 Margin Loss 的实现逻辑？ ​

6.3 LLaMA 2 中两个RM模型的实现逻辑？ ​

6.4 LLaMA 2 中 拒绝采样 逻辑？ ​

七、RLHF 替代方案篇 ​

7.1 为什么需要 RLHF 替代方案？ ​

7.2 RLHF 有哪些替代方案？ ​

替代方案 1：Constitutional AI: Harmlessness from AI Feedback ​

替代方案 2：The Wisdom of Hindsight Makes Language Models Better Instruction Followers ​

替代方案 3：Direct Preference Optimization: Your Language Model is Secretly a Reward Model ​

替代方案 4：Reinforced Self-Training (ReST) for Language Modeling ​

替代方案 5：RLAIF: Scaling Reinforcement Learning from Human Feedback with AI Feedback ​

八、RLHF 实践篇 ​

8.1 RLHF 训练过程，怎么选取最优 checkpoint？ ​

8.1.1 动机 ​

8.1.2 真实Reward的估算公式 ​

8.1.3 α和β的值 ​

8.1.4 Reward Model训练数据集的Scaling Law ​

8.1.5 Policy Model的Scaling Law ​

参考资料 ​