RLHF：强化学习结合大预言模型的训练方式

RLHF (Reinforcement Learning from Human Feedback) 以强化学习方式依据人类反馈优化语言模型。

文章目录

一、简介
二、一般的流程
三、微调gpt
- 介绍
- 示例
参考文章

一、简介

`
强化学习从人类反馈中学习（RLHF，Reinforcement Learning from Human Feedback）是一种将强化学习应用于优化语言模型的方法。传统的强化学习方法通常使用奖励函数作为反馈信号来指导模型学习，但在某些任务中，设计合适的奖励函数可能非常困难或耗时。RLHF的目标是通过人类提供的反馈来改进模型，从而缓解奖励函数设计的挑战。
chatgpt等语言模型均用了这一方法。
在这里插入图片描述

二、一般的流程

下面是RLHF的一般工作流程：

初始化模型：首先，需要初始化一个语言模型，例如基于神经网络的语言模型（如循环神经网络或转换器模型），该模型将被优化以生成更好的文本输出。
与人类交互：接下来，与人类交互来收集反馈。这可以通过不同的方式实现，例如：

人类演示（Human Demonstrations）：人类展示给模型一些示例输入和期望的输出，模型可以从这些示例中学习。
人类评估（Human Ratings）：人类对模型生成的输出进行评估和打分，例如指定质量、相关性、流畅性等方面的评价指标。
人类纠正（Human Corrections）：人类提供对模型输出的纠正，指出模型产生的错误并提供正确的文本。
人类对话（Human Dialogues）：在对话中与人类进行交互，模型通过对话中的问题和回答来学习改进。

构建反馈模型：将人类反馈转化为模型可以理解的形式，例如将人类演示转化为状态-动作对，或将人类评估转化为奖励信号。
强化学习训练：使用强化学习算法，如深度强化学习算法（如Proximal Policy Optimization、Deep Q-Network等），使用反馈模型作为奖励信号来训练语言模型。模型通过与环境交互，并根据反馈模型提供的奖励信号来调整模型的参数，以最大化长期累积奖励。
迭代优化：重复执行步骤2到步骤4，通过与人类交互收集更多的反馈，并不断改进和优化语言模型。

通过RLHF方法，语言模型可以通过与人类进行交互并根据人类反馈进行优化。这种方法可以在不依赖事先定义的奖励函数的情况下，使模型逐步改进，并在特定任务上产生更好的结果。然而，该方法仍然需要高质量的人类反馈数据，并需要解决与人类交互和反馈收集的挑战。

三、微调gpt

介绍

GPT3面世后，OpenAI提供了api，可集成到自己的项目中，用户使用的时候直接采用 prompt的方法做0样本或小样本的预测。

示例

下面的代码就是调用OpenAI提供的api，使用的同时，OpenAI会收集prompt数据，研究人员从这些问题（prompt）中采样一部分，人工对这些问题（prompt）做回答，得到的结果称为demonstration即有标签数据，再用这些demonstration继续微调GPT3

import openai
openai.api_key="**********************"
response = openai.Completion.create(model="text-davinci-003",prompt=prompt,temperature=0,max_tokens=100,top_p=1,frequency_penalty=0.0,presence_penalty=0.0,
)
message = response.choices[0].text
print(message)