有钱可以多任性?OpenAI提出人肉模型训练,文本摘要全面超越人类表现!

文 | 小轶


背景

三个多月前,OpenAI的GPT-3在NLP界掀起轩然大波。就在上周,视金钱如粪土的OpenAI团队又在文本摘要方面推出了最新力作,全方位超越人类表现。其亮点在于:以人类偏好替代自动化评测方法(如ROUGE、BLUE)为训练目标用人类反馈作为奖励进行强化学习,性能表现十分惊艳。

对于较为复杂的NLP任务,如何进行评测、如何构造精准的损失函数已困扰了NLP researchers多年。以文本摘要为例,若采用自动化指标,模型的生成结果将逐渐逼近数据集内人工手写的摘要。但这种评价方式其实并不符合我们真正的训练目标。我们希望生成的并非“与数据集相近的摘要”,而是一篇“好的摘要”——它应该精简、准确、概括性强、语言连贯流畅。用BLUE和ROUGE显然评测不了这些维度。

此外,过度模仿数据集内容还存在很多更深层的隐患。大量数据集,比如本工作采用的TL;DR数据集,都是直接从网络上爬取下来的。其内容是由成千上万、形形色色的互联网用户上传。其质量良莠不齐是一方面,更严重的是其中不乏一些危险暴力、真实性存疑的言论。这些互联网的暗面是我们不希望AI学到的。

用人类反馈指导AI的学习过程,不仅仅是用更精准的评测方式提高性能、刷新SOTA,也是在AI safety方面的一点推进。

论文题目
《Learning to Summarize with Human Feedback》

论文链接:
https://arxiv.org/pdf/2009.01325.pdf

开源代码:
https://github.com/openai/summarize-from-feedback

Arxiv访问慢的小伙伴也可以在 【夕小瑶的卖萌屋】订阅号后台回复关键词 【0914】 下载论文PDF~

方法

整体流程可归纳为以下4步,后文将依次展开:

  1. 训练初始摘要模型Supervised Baseline

  2. 构建人类反馈数据集,不断人工比较两篇摘要优劣

  3. 用上述“人类反馈数据集”训练一个Reward Model,模仿人类偏好对摘要打分

  4. 用强化学习的方法继续训练Supervised Baseline,每一步的奖励由上述Reward Model给出,从而学习符合人类偏好的摘要生成策略

下图展示了2-4步的实现细节:

1. 训练初始摘要模型

模型采用GPT-3风格的Transformer decoder。作者总共训了两个不同size的baseline。当然参数规模还没有真的GPT-3那么丧心病狂——也就一个13亿,一个67亿吧:)(Bert-large的4倍和20倍)。

训练方法,pretrain+fine-tune两步走。先在大量语料上进行预训练得到Pretrained Model。然后再用摘要数据集TL;DR中质量较高的部分,对模型进行fine-tune,得到Supervised Baseline。为保证baseline足够强大,可堪一战,作者用baseline跑了一下CNN/DM——一个baseline在预训练和fine-tune时都没见过的另一个摘要数据集。其性能表现可超越2019年5月时的SOTA。

2. 构建人类反馈数据集

构建过程就是不断给标注者同一文章的2篇摘要,要求选出其较为偏好的的一篇。最终数据集总共包含6.48w次比较。

值得一提的是作者团队为保证标注质量做出的努力。大概翻译一下作者原话:

“在之前的工作中,我们发现标注者经常给我们觉得很一般的文章也打高分。所以这次,我们斥巨资保证标注质量。为提高与标注者的交流效率,我们拒绝采用第三方标注平台,直接雇佣80名标注者到身边......对标注者每小时的标注量不做要求(如果标得太快会在一开始就被辞掉)。我们也不按标注数目发工资,而是按工作时长,15刀/时。”

3. 训练Reward Model

光靠人工标注的6.48w条比较数据,仍然还不足以调教一个规模庞大的摘要模型。于是,作者以人类标注数据为基础,训练了一个Reward Model,模仿人类喜好对摘要进行打分。

模型结构,就是第1步中Supervised Baseline上再叠一个线性层。训练的时候,给标注者已经比较过的摘要,摘要,让Reward Model分别打分。假设标注结果是好,则损失函数为:

4. 学习符合人类偏好的摘要生成策略

万事俱备后,作者用强化学习的方法继续训练Supervised Baseline,以符合人类偏好为目标调整生成策略。仔细读paper细节的话,会发现每一步的奖励其实并不只Reward Model的打分,而是由两部分构成的:

(向右滑动查看完整公式)

即Reward Model的给分。后面又减去了一项,是初始Supervised Model与当前模型的相对熵。也就是说,既希望新的模型能够在Reward Model这里得高分,又不允许它离初始模型偏离得太远。因为相应实验表明(如下图所示),当模型与初始状态相对熵变大的时候,Reward Model可能会对模型打高分(图中虚线),但实际人类喜好程度(图中实线)反而会不断降低。

这样的差异说明Reward Model对于人类偏好的模仿能力仍然十分有限。论文附录部分也列举了一些模型overfit后的结果,如下图所示。可以看到,当模型overfit后,似乎可以学习到某种固定的pattern骗取Reward Model的高分。

实验

论文实验部分持续弥漫金钱的味道。所有实验都采用人工评测的方式,以保证最大程度的准确性。

1. TL;DR实验结果: TL;DR是模型做fine-tune的数据集,作者在其测试集上进行评测,实验结果见下图。共比较了4种摘要生成结果:

  • 数据集中人工写的reference summaries

  • 用人类反馈强化学习过的最终模型

  • 未经强化学习的Supervised Baseline

  • 未在摘要任务上fine-tune过的预训练模型

左图是多维度的人工评测打分(coverage,coherence,accuracy)。右图中,纵轴是人类偏好比例,横轴为模型规模。结论:经人类反馈强化学习后,全方位超越人类表现。

2.迁移实验结果: 尽管模型从未学习过新闻领域的摘要生成,模型依然在新闻类数据集CNN/DM上取得了很好的表现。如下图所示,在模型规模相等的情况下,TL;DR上强化学习后的模型(Human feedback transfer)与直接在CNN/DM上fine-tune过的模型(Supervised CNN/DM)相比,评测结果相差无几。

感想与小结

尽管提升效果显著,本工作还是存在很多局限性。一个是钱的问题。此外,直接用人类反馈指导模型学习的可操作性、可普适性仍然存疑。我们也看到,在进行强化学习时的奖励并非直接由reward model给出,还需要加一个相对熵限制项。并且从实验中的分析结果来看,模型训练似乎非常容易过拟合。可以想见整个调参过程应该是非常复杂的。

其实,用人类的行为模式指导AI的思想已不是首次出现。例如OpenAI去年就有用人类偏好精调GPT-2的工作。又如发表于今年ACL上的一篇工作,比较了人类与RNN的attention模式差异。在此之前,也有用人类偏好指导语义解析和翻译任务的工作。当然,高质量、大规模地标注人类反馈需要雄厚的财力。也是因为这个原因,其他工作多不能做到OpenAI的规模。

无论如何,人肉炼丹所得到的提升效果肉眼可见。相关工作也已在今年工作中陆续涌现。是否会成为NLP界的下一个热点,也尚未可知。


文末福利
后台回复关键词【入群
加入卖萌屋NLP/IR/Rec与求职讨论群
有顶会审稿人、大厂研究员、知乎大V和妹纸
等你来撩哦~

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/479988.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

数据挖掘第一次作业

我先大概写了写,还有一些读过的论文没有往上放,一些论文之间的联系线条没有搞出来。 就先这样吧!有空再搞,我现在想去玩板子啦!

A*搜索算法--游戏寻路

文章目录1. 算法解析2. 总结仙剑奇侠传这类MMRPG游戏中,有人物角色 自动寻路功能。当人物处于游戏地图中某位置时,点击另一个相对较远的位置,人物就会自动地绕过障碍物走过去。这个功能是怎么实现的呢?1. 算法解析 这是一个非常典…

阿里P8架构师谈:应用后端+移动端的性能优化指标,以及性能优化方法

性能优化专题 阿里P8架构师谈:MySQL数据库的索引原理、与慢SQL优化的5大原则 阿里P8架构师谈:Web前端、应用服务器、数据库SQL等性能优化总结 大型网站Web前端优化最佳实践,以及最全优化工具集锦 阿里P8架构师谈:多线程、架构、…

无主题

厦门月亮少 20191003 之前突然遇到个bug,解决好久无果,开始干点别的事情,大约四天后的今天,我打开程序想解决一下,然后,调试半天无果,妈妈突然微信和我聊天了,聊完以后往终端一瞥&a…

PyTorch Trick集锦

文 | z.defying知乎来源 | https://zhuanlan.zhihu.com/p/76459295前言本文整理了13则PyTorch使用的小窍门,包括了指定GPU编号、梯度裁剪、扩展单张图片维度等实用技巧,能够帮助工作者更高效地完成任务。1、指定GPU编号2、查看模型每层输出详情3、梯度裁…

论文浅尝 | 利用推理链进行视觉问题回答

论文笔记整理:吴杨,浙江大学计算机学院,知识图谱、NLP方向。http://papers.nips.cc/paper/7311-chain-of-reasoning-for-visual-question-answering.pdf动机在视觉问题回答中,较为复杂的问题经常需要多步骤的推理才能够回答&#…

阿里P8架构师谈:数据库、JVM、缓存、SQL等性能调优方法和原则

编辑 性能优化基本是BAT等一线互联网公司程序员必备的技能,以下为大家完整揭晓性能完整的优化方案和方法:包含web网站调优、数据库、JVM调优、架构调优等方案。 第一:Web网站调优 1、尽可能减少HTTP请求:图片合并 (cs…

知乎招聘搜索算法实习生!邀你共建知乎搜索引擎!

星标/置顶小屋,带你解锁最萌最前沿的NLP、搜索与推荐技术部门介绍搜索算法团队是知乎核心算法团队之一,负责知乎搜索框背后的各项算法工作。我们团队一直非常重视新技术在搜索场景的探索和落地,包括但不限于 NLP,排序,…

论文浅尝 | 主题感知的问答生成

Citation: XingC, Wu W, Wu Y, et al. Topic aware neural response generation[C]//Thirty-FirstAAAI Conference on Artificial Intelligence. 2017.动机人机对话在 AI 和 NLP 领域是一项具有挑战性的工作。现存的对话系统包括任务导向的对话系统和非任务导向的聊天机器人。在…

.halo勒索病毒解密方法|勒索病毒解决|勒索病毒恢复|数据库修复

尊敬的读者: 网络安全是当今数字时代的一大挑战,各种勒索病毒如.halo病毒层出不穷,对用户和企业的数据安全构成了严重威胁。本文将介绍.halo勒索病毒,以及如何恢复被其加密的数据文件,同时提供预防措施。在面对被勒索…

阿里P8架构师谈:多线程、架构、异步消息、Redis等性能优化策略

常见性能优化策略分类 1.代码 之所以把代码放到第一位,是因为这一点最容易引起技术人员的忽视。很多技术人员拿到一个性能优化的需求以后,言必称缓存、异步、JVM等。实际上,第一步就应该是分析相关的代码,找出相应的瓶颈&#xf…

周志华教授专著《集成学习:基础与算法》上市,豆瓣满分森林书破解AI实践难题...

近年来,机器学习技术的快速发展推动了语音、自然语言处理、机器视觉等多个领域获得巨大进步,也带动了人工智能相关产业的蓬勃发展。回顾机器学习最近30 年的发展历程,各种学习方法推陈出新、不断演进。但是,在此历程中&#xff0c…

Redis常用数据类型的数据结构

文章目录1. Redis 数据库介绍2. 列表(list)3. 字典(hash)4. 集合(set)5. 有序集合(sortedset)6. 数据结构持久化7. 总结1. Redis 数据库介绍 Redis 是一种键值( Key-Val…

论文浅尝 | 使用循环神经网络的联合事件抽取

余博涛,南京大学计算机科学与技术系,硕士研究生论文连接:http://www.aclweb.org/anthology/N16-1034发表会议:NAACL-HLT 2016摘要事件抽取(event extraction)是信息抽取中一个特别具有挑战性的问题。针对该…

阿里P8架构师谈:Web前端、应用服务器、数据库SQL等性能优化总结

web前端性能优化 Web前端指网站业务逻辑之前的部分,包括: 1.浏览器加载 2.网站视图模型 3.图片服务 4.CDN服务等 主要优化手段有优化浏览器访问,使用反向代理,CDN等。 1.浏览器访问优化 (1)减少http…

动手做个DialoGPT:生成式多轮对话模型

文 | 苏剑林编 | 兔子酱前段时间刷Arixv的时候,发现清华大学开源了一个大规模的中文闲聊语料库LCCC,从开源的文件上来看,这可能是目前开源的数量最大、质量最好的闲聊语料库了,而且还包含了部分多轮对话聊天,总的来说可…

搜索引擎背后的数据结构和算法

文章目录1. 整体系统介绍2. 搜集2.1 待爬取网页链接文件:links.bin2.2 网页判重文件:bloom_filter.bin2.3 原始网页存储文件:doc_raw.bin2.4 网页链接及其编号的对应文件:doc_id.bin3. 分析3.1 抽取网页文本信息3.2 分词并创建临时…

论文浅尝 | DKN: 面向新闻推荐的深度知识感知网络

笔记整理:仲亮靓,东南大学硕士研究生,研究方向是基于知识图谱的推荐系统动机新闻文本的语言非常凝练,其中包含了很多实体和常识知识。但目前的新闻个性化推荐方法都没有利用这些外部知识,也没有使用新闻之间潜在的知识…

聊聊工业界做机器学习的里程碑

文 | 吴海波编 | YY阅读说明,本文的机器学习领域限制于互联网搜索、推荐、广告场景,仅限于个人观点。2017年,我和团队的几个核心去了趟北京,找了各大互联网公司一线实战的同学,交流各自在机器学习上的经验。这次交流让…

直通BAT JVM必考题:Minor GC、Major GC、Full GC的区别

Java面试过程,JVM属于必考题系列: 直通BAT必考题系列:深入详解JVM内存模型与JVM参数详细配置 直通BAT必考题系列:JVM的4种垃圾回收算法、垃圾回收机制与总结 直通BAT必考题系列:7种JVM垃圾收集器特点,优…