背景

三个多月前，OpenAI的GPT-3在NLP界掀起轩然大波。就在上周，视金钱如粪土的OpenAI团队又在文本摘要方面推出了最新力作，全方位超越人类表现。其亮点在于：以人类偏好替代自动化评测方法（如ROUGE、BLUE）为训练目标，用人类反馈作为奖励进行强化学习，性能表现十分惊艳。

对于较为复杂的NLP任务，如何进行评测、如何构造精准的损失函数已困扰了NLP researchers多年。以文本摘要为例，若采用自动化指标，模型的生成结果将逐渐逼近数据集内人工手写的摘要。但这种评价方式其实并不符合我们真正的训练目标。我们希望生成的并非“与数据集相近的摘要”，而是一篇“好的摘要”——它应该精简、准确、概括性强、语言连贯流畅。用BLUE和ROUGE显然评测不了这些维度。

此外，过度模仿数据集内容还存在很多更深层的隐患。大量数据集，比如本工作采用的TL;DR数据集，都是直接从网络上爬取下来的。其内容是由成千上万、形形色色的互联网用户上传。其质量良莠不齐是一方面，更严重的是其中不乏一些危险暴力、真实性存疑的言论。这些互联网的暗面是我们不希望AI学到的。

用人类反馈指导AI的学习过程，不仅仅是用更精准的评测方式提高性能、刷新SOTA，也是在AI safety方面的一点推进。

论文题目：
《Learning to Summarize with Human Feedback》

论文链接:
https://arxiv.org/pdf/2009.01325.pdf

开源代码:
https://github.com/openai/summarize-from-feedback

Arxiv访问慢的小伙伴也可以在【夕小瑶的卖萌屋】订阅号后台回复关键词【0914】下载论文PDF~

方法

整体流程可归纳为以下4步，后文将依次展开：

训练初始摘要模型Supervised Baseline
构建人类反馈数据集，不断人工比较两篇摘要优劣
用上述“人类反馈数据集”训练一个Reward Model，模仿人类偏好对摘要打分
用强化学习的方法继续训练Supervised Baseline，每一步的奖励由上述Reward Model给出，从而学习符合人类偏好的摘要生成策略

下图展示了2-4步的实现细节：

1. 训练初始摘要模型

模型采用GPT-3风格的Transformer decoder。作者总共训了两个不同size的baseline。当然参数规模还没有真的GPT-3那么丧心病狂——也就一个13亿，一个67亿吧：）（Bert-large的4倍和20倍）。

训练方法，pretrain+fine-tune两步走。先在大量语料上进行预训练得到Pretrained Model。然后再用摘要数据集TL;DR中质量较高的部分，对模型进行fine-tune，得到Supervised Baseline。为保证baseline足够强大，可堪一战，作者用baseline跑了一下CNN/DM——一个baseline在预训练和fine-tune时都没见过的另一个摘要数据集。其性能表现可超越2019年5月时的SOTA。

2. 构建人类反馈数据集

构建过程就是不断给标注者同一文章的2篇摘要，要求选出其较为偏好的的一篇。最终数据集总共包含6.48w次比较。

值得一提的是作者团队为保证标注质量做出的努力。大概翻译一下作者原话：

“在之前的工作中，我们发现标注者经常给我们觉得很一般的文章也打高分。所以这次，我们斥巨资保证标注质量。为提高与标注者的交流效率，我们拒绝采用第三方标注平台，直接雇佣80名标注者到身边......对标注者每小时的标注量不做要求（如果标得太快会在一开始就被辞掉）。我们也不按标注数目发工资，而是按工作时长，15刀/时。”

3. 训练Reward Model

光靠人工标注的6.48w条比较数据，仍然还不足以调教一个规模庞大的摘要模型。于是，作者以人类标注数据为基础，训练了一个Reward Model，模仿人类喜好对摘要进行打分。

模型结构，就是第1步中Supervised Baseline上再叠一个线性层。训练的时候，给标注者已经比较过的摘要,摘要，让Reward Model分别打分, 。假设标注结果是比好，则损失函数为：

4. 学习符合人类偏好的摘要生成策略

万事俱备后，作者用强化学习的方法继续训练Supervised Baseline，以符合人类偏好为目标调整生成策略。仔细读paper细节的话，会发现每一步的奖励其实并不只Reward Model的打分，而是由两部分构成的：

（向右滑动查看完整公式）

即Reward Model的给分。后面又减去了一项，是初始Supervised Model与当前模型的相对熵。也就是说，既希望新的模型能够在Reward Model这里得高分，又不允许它离初始模型偏离得太远。因为相应实验表明（如下图所示），当模型与初始状态相对熵变大的时候，Reward Model可能会对模型打高分（图中虚线），但实际人类喜好程度（图中实线）反而会不断降低。

这样的差异说明Reward Model对于人类偏好的模仿能力仍然十分有限。论文附录部分也列举了一些模型overfit后的结果，如下图所示。可以看到，当模型overfit后，似乎可以学习到某种固定的pattern骗取Reward Model的高分。

实验

论文实验部分持续弥漫金钱的味道。所有实验都采用人工评测的方式，以保证最大程度的准确性。

1. TL;DR实验结果： TL;DR是模型做fine-tune的数据集，作者在其测试集上进行评测，实验结果见下图。共比较了4种摘要生成结果：

数据集中人工写的reference summaries
用人类反馈强化学习过的最终模型
未经强化学习的Supervised Baseline
未在摘要任务上fine-tune过的预训练模型

左图是多维度的人工评测打分（coverage,coherence,accuracy）。右图中，纵轴是人类偏好比例，横轴为模型规模。结论：经人类反馈强化学习后，全方位超越人类表现。

2.迁移实验结果： 尽管模型从未学习过新闻领域的摘要生成，模型依然在新闻类数据集CNN/DM上取得了很好的表现。如下图所示，在模型规模相等的情况下，TL;DR上强化学习后的模型（Human feedback transfer）与直接在CNN/DM上fine-tune过的模型（Supervised CNN/DM）相比，评测结果相差无几。

感想与小结

尽管提升效果显著，本工作还是存在很多局限性。一个是钱的问题。此外，直接用人类反馈指导模型学习的可操作性、可普适性仍然存疑。我们也看到，在进行强化学习时的奖励并非直接由reward model给出，还需要加一个相对熵限制项。并且从实验中的分析结果来看，模型训练似乎非常容易过拟合。可以想见整个调参过程应该是非常复杂的。

其实，用人类的行为模式指导AI的思想已不是首次出现。例如OpenAI去年就有用人类偏好精调GPT-2的工作。又如发表于今年ACL上的一篇工作，比较了人类与RNN的attention模式差异。在此之前，也有用人类偏好指导语义解析和翻译任务的工作。当然，高质量、大规模地标注人类反馈需要雄厚的财力。也是因为这个原因，其他工作多不能做到OpenAI的规模。

无论如何，人肉炼丹所得到的提升效果肉眼可见。相关工作也已在今年工作中陆续涌现。是否会成为NLP界的下一个热点，也尚未可知。

文末福利
后台回复关键词【入群】
加入卖萌屋NLP/IR/Rec与求职讨论群
有顶会审稿人、大厂研究员、知乎大V和妹纸
等你来撩哦~