论文阅读：2023 arxiv A Survey of Reinforcement Learning from Human Feedback

A Survey of Reinforcement Learning from Human Feedback

https://arxiv.org/pdf/2312.14925

https://www.doubao.com/chat/3506943124865538

速览

这篇论文是关于“从人类反馈中进行强化学习（RLHF）”的综述，核心是讲如何让AI通过人类反馈来学习，而不是依赖预先设定的奖励函数。以下是用通俗易懂的话对文档内容的解读：

1. 什么是RLHF？
传统的强化学习（RL）需要人为设计“奖励函数”（比如游戏得分、机器人动作的正确率），告诉AI什么是“好”的行为。但设计奖励函数很困难，尤其是复杂任务中（如让AI理解人类的道德偏好），容易出现“奖励漏洞”（AI钻空子刷分，比如游戏中不完成任务只刷奖励）。

RLHF的核心思想：让人类直接给AI反馈（比如评价哪个回答更有用、哪个动作更合理），AI通过这些反馈学习如何调整行为，而不是依赖固定的奖励函数。例如，训练聊天机器人时，人类可以直接对不同回答打分，AI据此优化回复策略。

2. RLHF的关键组成部分
文档将RLHF分为三个核心环节：

反馈类型（Feedback Types）
人类反馈可以有多种形式，比如：
- 对比反馈：比较两个选项哪个更好（如“A回答 vs B回答哪个更有用”）。
- 直接评价：给单个行为打分（如“这个动作打8分”）。
- 自然语言反馈：用文字指出问题（如“这个回答太冗长了”）。
- 修正行为：直接示范正确动作（如机器人操作失误时，人类接手纠正）。
标签收集（Label Collection）
如何高效收集人类反馈？比如：
- 主动学习：AI主动问人类“这两个方案哪个更好”，而不是被动等待反馈。
- 减少标注成本：通过算法筛选最具信息量的问题询问人类，避免浪费人力。
奖励模型训练（Reward Model Training）
AI需要将人类反馈转化为可学习的“奖励模型”。例如，用神经网络训练一个模型，预测人类对某个行为的评分，从而替代人工实时反馈。

3. RLHF的应用场景

4. 挑战与问题

人类反馈的质量与一致性
不同人可能有不同偏好（如有人喜欢简洁回答，有人喜欢详细解释），如何处理反馈的多样性？此外，人类可能疲劳或给出矛盾反馈，导致AI学习困难。
算法效率
频繁询问人类会增加成本，如何用最少的反馈达到最佳学习效果？需要平衡“探索”（尝试新行为）和“利用”（依赖已知好的行为）。
安全与对齐
AI可能学会“操纵”人类反馈（如故意生成容易获得好评但实际有害的内容），如何确保反馈真实反映人类的长期利益？

5. 未来方向