文 | 小轶
背景
三个多月前,OpenAI的GPT-3在NLP界掀起轩然大波。就在上周,视金钱如粪土的OpenAI团队又在文本摘要方面推出了最新力作,全方位超越人类表现。其亮点在于:以人类偏好替代自动化评测方法(如ROUGE、BLUE)为训练目标,用人类反馈作为奖励进行强化学习,性能表现十分惊艳。
对于较为复杂的NLP任务,如何进行评测、如何构造精准的损失函数已困扰了NLP researchers多年。以文本摘要为例,若采用自动化指标,模型的生成结果将逐渐逼近数据集内人工手写的摘要。但这种评价方式其实并不符合我们真正的训练目标。我们希望生成的并非“与数据集相近的摘要”,而是一篇“好的摘要”——它应该精简、准确、概括性强、语言连贯流畅。用BLUE和ROUGE显然评测不了这些维度。
此外,过度模仿数据集内容还存在很多更深层的隐患。大量数据集,比如本工作采用的TL;DR数据集,都是直接从网络上爬取下来的。其内容是由成千上万、形形色色的互联网用户上传。其质量良莠不齐是一方面,更严重的是其中不乏一些危险暴力、真实性存疑的言论。这些互联网的暗面是我们不希望AI学到的。
用人类反馈指导AI的学习过程,不仅仅是用更精准的评测方式提高性能、刷新SOTA,也是在AI safety方面的一点推进。
论文题目:
《Learning to Summarize with Human Feedback》
论文链接:
https://arxiv.org/pdf/2009.01325.pdf
开源代码:
https://github.com/openai/summarize-from-feedback
Arxiv访问慢的小伙伴也可以在 【夕小瑶的卖萌屋】订阅号后台回复关键词 【0914】 下载论文PDF~
方法
整体流程可归纳为以下4步,后文将依次展开:
训练初始摘要模型Supervised Baseline
构建人类反馈数据集,不断人工比较两篇摘要优劣
用上述“人类反馈数据集”训练一个Reward Model,模仿人类偏好对摘要打分
用强化学习的方法继续训练Supervised Baseline,每一步的奖励由上述Reward Model给出,从而学习符合人类偏好的摘要生成策略
下图展示了2-4步的实现细节:
1. 训练初始摘要模型
模型采用GPT-3风格的Transformer decoder。作者总共训了两个不同size的baseline。当然参数规模还没有真的GPT-3那么丧心病狂——也就一个13亿,一个67亿吧:)(Bert-large的4倍和20倍)。
训练方法,pretrain+fine-tune两步走。先在大量语料上进行预训练得到Pretrained Model。然后再用摘要数据集TL;DR中质量较高的部分,对模型进行fine-tune,得到Supervised Baseline。为保证baseline足够强大,可堪一战,作者用baseline跑了一下CNN/DM——一个baseline在预训练和fine-tune时都没见过的另一个摘要数据集。其性能表现可超越2019年5月时的SOTA。
2. 构建人类反馈数据集
构建过程就是不断给标注者同一文章的2篇摘要,要求选出其较为偏好的的一篇。最终数据集总共包含6.48w次比较。
值得一提的是作者团队为保证标注质量做出的努力。大概翻译一下作者原话:
“在之前的工作中,我们发现标注者经常给我们觉得很一般的文章也打高分。所以这次,我们斥巨资保证标注质量。为提高与标注者的交流效率,我们拒绝采用第三方标注平台,直接雇佣80名标注者到身边......对标注者每小时的标注量不做要求(如果标得太快会在一开始就被辞掉)。我们也不按标注数目发工资,而是按工作时长,15刀/时。”
3. 训练Reward Model
光靠人工标注的6.48w条比较数据,仍然还不足以调教一个规模庞大的摘要模型。于是,作者以人类标注数据为基础,训练了一个Reward Model,模仿人类喜好对摘要进行打分。
模型结构,就是第1步中Supervised Baseline上再叠一个线性层。训练的时候,给标注者已经比较过的摘要,摘要,让Reward Model分别打分, 。假设标注结果是比好,则损失函数为:
4. 学习符合人类偏好的摘要生成策略
万事俱备后,作者用强化学习的方法继续训练Supervised Baseline,以符合人类偏好为目标调整生成策略。仔细读paper细节的话,会发现每一步的奖励其实并不只Reward Model的打分,而是由两部分构成的:
(向右滑动查看完整公式)
即Reward Model的给分。后面又减去了一项,是初始Supervised Model与当前模型的相对熵。也就是说,既希望新的模型能够在Reward Model这里得高分,又不允许它离初始模型偏离得太远。因为相应实验表明(如下图所示),当模型与初始状态相对熵变大的时候,Reward Model可能会对模型打高分(图中虚线),但实际人类喜好程度(图中实线)反而会不断降低。
这样的差异说明Reward Model对于人类偏好的模仿能力仍然十分有限。论文附录部分也列举了一些模型overfit后的结果,如下图所示。可以看到,当模型overfit后,似乎可以学习到某种固定的pattern骗取Reward Model的高分。
实验
论文实验部分持续弥漫金钱的味道。所有实验都采用人工评测的方式,以保证最大程度的准确性。
1. TL;DR实验结果: TL;DR是模型做fine-tune的数据集,作者在其测试集上进行评测,实验结果见下图。共比较了4种摘要生成结果:
数据集中人工写的reference summaries
用人类反馈强化学习过的最终模型
未经强化学习的Supervised Baseline
未在摘要任务上fine-tune过的预训练模型
左图是多维度的人工评测打分(coverage,coherence,accuracy)。右图中,纵轴是人类偏好比例,横轴为模型规模。结论:经人类反馈强化学习后,全方位超越人类表现。
2.迁移实验结果: 尽管模型从未学习过新闻领域的摘要生成,模型依然在新闻类数据集CNN/DM上取得了很好的表现。如下图所示,在模型规模相等的情况下,TL;DR上强化学习后的模型(Human feedback transfer)与直接在CNN/DM上fine-tune过的模型(Supervised CNN/DM)相比,评测结果相差无几。
感想与小结
尽管提升效果显著,本工作还是存在很多局限性。一个是钱的问题。此外,直接用人类反馈指导模型学习的可操作性、可普适性仍然存疑。我们也看到,在进行强化学习时的奖励并非直接由reward model给出,还需要加一个相对熵限制项。并且从实验中的分析结果来看,模型训练似乎非常容易过拟合。可以想见整个调参过程应该是非常复杂的。
其实,用人类的行为模式指导AI的思想已不是首次出现。例如OpenAI去年就有用人类偏好精调GPT-2的工作。又如发表于今年ACL上的一篇工作,比较了人类与RNN的attention模式差异。在此之前,也有用人类偏好指导语义解析和翻译任务的工作。当然,高质量、大规模地标注人类反馈需要雄厚的财力。也是因为这个原因,其他工作多不能做到OpenAI的规模。
无论如何,人肉炼丹所得到的提升效果肉眼可见。相关工作也已在今年工作中陆续涌现。是否会成为NLP界的下一个热点,也尚未可知。
文末福利
后台回复关键词【入群】
加入卖萌屋NLP/IR/Rec与求职讨论群
有顶会审稿人、大厂研究员、知乎大V和妹纸
等你来撩哦~