OpenAI亲谈:我们眼中的GPT-3、大规模语言模型的局限性与出路在哪

编译 | 陈彩娴、青暮
编辑 | 陈大鑫

近日,OpenAI政策研究主管Miles Brundage在推特上分享了一篇新论文,论文内容是对一个GPT-3研讨会的总结。

2020年10月14日,来自OpenAI、斯坦福大学HAI研究所等机构的研究人员召集在一起,讨论围绕GPT-3的开放研究问题。

参与研讨会的学者有各种研究背景,包括计算机科学、语言学、哲学、政治学、通信、网络政策等。大致来讲,本次研讨会围绕两个主要问题:

  1. 大型语言模型的能力和局限性是什么?讨论涉及几个关键领域,包括:规模型对模型功能的巨大影响;评估大型语言模型是否真正理解语言的困难;在多种数据模态下训练模型的重要性;以及使模型目标与人类价值观相一致的挑战。

  2. 被广泛使用的大型语言模型的社会影响是什么?讨论涉及了几个关键领域,包括:难以确定通用语言模型的所有可能使用(或滥用)场景;机构在模型部署中可能面临的挑战;模型在算法层面上泄露信息的潜在可能;减少模型偏见(例如:种族、性别、宗教信仰等)存在的阻碍;以及基于语言模型的自动化应用对劳动力市场的影响。

在会后,来自斯坦福大学、OpenAI 与 AI Index 的数位参会者对讨论内容进行了整理与概括,撰文如下:

论文链接:
https://arxiv.org/abs/2102.02503

在开放性的讨论中,作者等人希望给大家提供多角度观点,引起思考,共同寻求解决方案。

1.技术能力和局限性

1)规模效应

GPT-3是最大的语言模型之一:它具有1,750亿个参数,并且接受了570 GB的文本训练。相比之下,其前身GPT-2(功能与GPT-3类似)具有15亿个参数,并接受了40 GB的文本训练。尽管GPT-2对下游任务展示了一定程度的零样本泛化能力,但当上下文中给出示例时,GPT-3进一步展示了学习更多新颖任务的能力。参会者发现,令人称奇的是,这种泛化能力仅来自于增加模型和训练数据的规模。

有人指出,随着模型规模增加而实现的能力扩展的现象,“就像物理学定律或热力学定律”存在稳定性和可预测性。一些参会者乐观地认为,即使对于比GPT-3大得多的模型,这些趋势仍将继续生效,以后将会出现越来越强大的模型,并能够以更加先进的方式从少量训练示例中学习新的能力。

一位参会者指出,像GPT-3这样的模型规模让人想起了大型粒子加速器实验,构建这样的加速器需要许多不同背景的研究人员。例如,当训练如此大的模型时,具有不同专业知识的不同团队必须协作以运行实验、构建和维护计算基础架构、开发算法,并不断测试模型的功能,以解决可能出现的问题(例如:偏见、滥用、安全性等等)。

2)理解

语言模型中的“理解”是什么构成的?GPT-3是否满足此定义?有些人倾向于基于强智能的概念进行定义,这些概念要求模型具有意图或对现实世界中的请求做出响应的能力。其他人则提出,GPT-3还有一些尚未满足的更弱的智能概念,包括对对抗样本的鲁棒性,这些示例很容易使AI系统感到困惑,而对人类却没有影响。参会者建议,如果模型在稀有但重要的输入上表现不佳,则“基本正确”地解决问题可能不足以被视为理解

理解的另一个定义围绕因果关系的概念,因为真正理解的模型应该掌握数据特征与所需行为之间的因果关系。一些人认为语言模型不可避免要利用数据中固有的“虚假关联”或“捷径特征”,因此缺乏真正的潜在因果模型。但是,一位参会者提出了另一种观点:语言模型如果具有足够的数据,可能会形成“自然实验”效应,从而使模型能够以类似于人类的方式,从观测数据中学习因果关系

一些参会者反对理解的二元论,并强调了儿童和成人随着时间逐渐掌握更强大技巧的现象。例如,一位参会者引述了一位著名的物理学家的话,“我第三次教热力学时才了解热力学。”另一位参会者反对单一的理解概念,强调了语言学家和哲学家之间关于意义的辩论,即“意义是从表达之间的关系,还是从某种外部基础真理中衍生而来的?”

最后,一些参会者对理解的关注提出了质疑,认为人类能够以平庸甚至缺乏理解的方式来完成许多任务,其中包括最近赢得了法国拼字游戏冠军的非法语选手。有人则表示,关于GPT-3是否以相关方式理解语言的判断,或许与其是否能成功完成任务无关。

令人印象深刻的是,一位参会者还谈到了一个反向问题,即人类对大型语言模型的能力的理解:“ GPT-3完全是陌生的。问它是否是AGI并不是一件愚蠢的事情。

3)多模态

大部分讨论都涉及了多模态模型的重要性,多模态模型是对来自其他模态(例如图像、语音等)的数据进行训练的语言模型。参会者大体上同意,大型多模态模型将变得更加普遍,并实现更多功能。实际上,在研讨会之后不久,OpenAI就发布了DALL-E,它是GPT-3的多模态版本,接受了文本到图像转换的训练

但是,有人认为GPT-3已经在多模态数据上进行了训练,因为训练数据包含散文、结构化数据表和计算机代码。其他人则认为,多模态训练的主要好处可能是让模型更快学习到有用的功能,因为不同数据模态之间的相互作用,可能会比单独的数据模态提供更强的学习信号。最后,一些人评论说,鉴于人类在所能使用的感觉模态范围方面存在差异,因此没有任何其他模态对语言使用至关重要

4)价值匹配

参会者讨论了模型的目标需要与人的价值更好地匹配。例如,一位参会者提到了一些语言模型对所有的语言符号(例如:名词、介词、数字等)一视同仁,但人类则不一样。其他几位参与者强调了更好地优化事实准确性和对抗鲁棒性的挑战。人的价值和模型的目标的匹配被认为非常重要,尤其是针对通过与环境积极互动学习的“嵌入式” AI智能体。参会者还强调开发更好的算法使智能体对人的价值“转向”,以及促进跨学科的合作,更好地阐明什么是“人的价值”,尤其是考虑到跨越个人和社区的多样性,以及数据集中存在的偏见。

2.GPT-3 被广泛使用的好处

1)功能

GPT-3 的功能非常强大,可以进行文本概括、机器人聊天、搜索、代码生成和文章生成。

在会上,有人提出:GPT-3 的功能如此震撼,既要仔细管控所有用途(因为 GPT-3 接受任意输入,却无法事先预测模型的所有可能表现),又要保证人类社会的安全不受 GPT-3 威胁,其实是极具挑战性的。

会上的许多人也注意到,如果使用访问受限的 API 对 GPT-3 进行延误,那么OpenAI 比开源更容易地控制模型的使用

但这种方法也有许多亟待解决的问题,比如:谁可以访问,为什么可以访问?要如何提供模型访问权限来支持大型社区进行大规模的团队协作(检查模型的潜在误用和制定缓解策略)?

2)部署

参会者讨论了部署大规模语言模型可能带来的道德和社会挑战,以及应对这些挑战的方法。

一个建议是增加供学术界使用的计算资源,以便学者研究大规模语言模型的部署。有人提出,设立法律法规,要求使用者披露何时使用 AI 生成文本,可能有助于管理大规模语言模型的影响。另一位参会者则询问:能不能通过某些标准来评估语言模型是否具有社会效益?大家都认为这是一项极具挑战但十分重要的任务。

几位参会者认为,OpenAI 和其他组织不会永远垄断大规模语言模型。他们提到,开发者可能只能垄断 6-9个月,直到其他研究人员复现他们的结果。大家达成一个共识:最前沿的研究机构应利用其前沿地位,负责任地制定新兴领域的标准规范。

此外,还有一些参与者指出,由于技术标准的进步,随着时间的推移,复制 GPT-3 之类的模型会越来越容易。这也进一步表明了使用当前时间窗口的紧迫性。在该窗口中,极少行动者拥有非常大规模的语言模型,并难以制定恰当的规范和原则供其他人遵循。

3)假消息

会上讨论的另一个主要话题是关于错误使用语言模型来生成虚假信息。

具体来说,类似 GPT-3 之类的模型可以用于创造错误的、具有误导性或公关性的文章、推文和新闻报道。

有人认为,此前的一些技术(比如摄影和PS)也会带来相似的问题,社会大众已经提高对此风险的防范意识,因此不必太担心;此外,虽然 GPT-3 在原则上确实可能自动生成虚假消息,但相比用 GPT-3 制造假消息,人工传播谣言似乎更节约成本。

另一些人不同意上述观点。他们认为,语言模型自动生成虚假消息的成本,要远低于培训并支付人力去制造虚假消息的成本。

大家都认为:实际调查自动生成虚假信息与人为制造虚假信息的经济学规律非常重要

往前看,有人提议,我们不妨设想:在未来,语言模型生成的文本不仅与大家讨论的话题相连贯,而且在任一话题上都具有很强的说服力。

另一位参会者指出,GPT-3或将来的其他语言模型可能会使虚假信息难以或无法从内容上检测出来,从而迫使通过在线平台依赖元数据。同样地,有人建议,诸如 GPT-3之类的系统存在应该鼓励大家更多地使用加密技术来认证媒体。

4)偏见

GPT-3 表现出多类种族偏见、性别偏见和宗教偏见。

一位讨论者将解决语言模型偏见的难度类比为解决在线平台的内容审核难度。尽管两者均存在制定规范的难度,但有些方面也存在缓解的共识与机会。比如,在线平台一致认为有必要解决儿童色情产品或严重的暴力威胁,歧视法中的“受保护阶级”概念也为思考某些语言模型偏见提供了有用的初始框架。

几位研讨会的参与者指出,我们很难以通用的方式定义怎样才算减轻大规模语言模型的偏见问题,因为恰当的语言使用在很大程度上取决于上下文语境。

一位与会者说到,所有数据集在某些方面都有偏见,因此我们面临的挑战不是消除所有偏见,而是根据某些规范和/或法律标准来解决有害的偏见。一些人建议,类似 OpenAI 这样的公司没有恰当的立场来代表社会制定规范。还有一些人发现,我们很难通过更改训练数据来减轻 GPT-3 等多功能系统的偏见,因为偏见通常是在特定的使用案例下进行分析的。与会者讨论了如何解决语言模型中有害偏见的多种可能方法,包括:

  • 更改初始训练数据,提前减少偏见

  • 训练一个单独的模型来过滤语言模型所生成的内容

  • 从必要数据上对大规模语言模型进行微调

  • 标记数据,以便模型可以学习区分某些形式的内容(可以参见CTRL)

  • 将模型训练得更“了解事实”

  • 使用人类反馈进行强化学习

  • 利用模型本身的知识来改善输出(例如,精心设计提示)

  • 开发更多模型在部署前可以运行的“偏见测试”套件

  • 与值得信赖的合作伙伴共同研究模型,提供一定的商业服务

这些方法都不是万能的。例如,使用人类反馈来操纵模型仍然会引发问题:人类标记者是谁?如何选择人类标记者?此外,内容过滤器有时会破坏他们要保护的特定智能体(例如,收回大多数人用于诽谤的单词或词组,将这些群体边缘化)。

一位与会者争辩道,将人放置在文本生成的核心,对解决这些问题至关重要。还有一些参会者强调,鉴于现有技术的局限性,应避免使用语言模型的某些功能,且文本生成应用程序在开放性和风险性上的差异非常大。例如,检测正则表达式比管理自杀电话热线更容易处理。

5)经济

另一个讨论主题是关于 GPT-3 等模型的经济意义。参会者观察到,人们当前对涉及文本阅读或分析的工作有不同程度的期望,有些工作令人满意(例如创作写作或阅读与总结报告),而另一些工作则效果较差(例如内容审核)。这就提出一个问题:大型语言模型应该或不应该在什么时候或什么类型的工作上自动化?一位与会者认为,如果让公司来作这类决定,可能会产生不良后果。大会还讨论到,教育也很可能受到较大语言模型的影响,这可能是论文写作过程以及评估文本的方式变化所导致的。还有一位与会者提到,向社会不同领域的群体提供 API 访问权限,可以帮助传递潜在的社会变革的早期信号。

3.未来的研究方向

以下的研究问题受到了大会讨论的启发:

  • 我们能否更好地理解为什么语言模型的规模会变得这么大?这能够帮助我们建立更能有效扩展的模型吗?

  • 扩展的限制是什么?规模扩大会带来更强的因果推理,符号操控(symbolic manipulation),常识理解以及对更广泛输入类别的鲁棒性吗?还是需要用到不同的技术?

  • 我们如何理解大型语言模型功能的局限性?我们是否可以让模型在不确定时寻求帮助、解释或弃权?

  • 我们如何开发新的神经网络架构和算法,从而使模型能高效学习文本以外的多模态数据?

  • 使大型语言模型的输出更符合人类价值观的不同方法分别涉及到哪些机会和权衡?

  • 应该如何分配诸如 GPT-3的模型的访问权,并在安全性、可复制性和公平性等因素之间取得平衡?为了使 GPT-3 之类的语言模型在特定情况下安全或不安全使用,我们需要进行哪种测试?

  • 学术界可以采取什么措施来最好地定位自己,以建立这种模型的工业发展护栏,包括提倡获得充足资金来复制训练所需的计算资源?

  • 我们如何能最好地促进跨学科合作,以理解和管理大型数据集和此类数据集的模型表示中的偏见?

  • 我们如何才能最好地描述此类模型的潜在“威胁态势”;例如,我们是否需要花费更多的时间来担心一些利润驱动的人使用这种模型来生成大量垃圾邮件,还是应该担忧一些人使用模型来生成具有说服力的文本,并在虚假宣传活动中使用?

  • 与实现相同目标的替代方法相比,恶意者出于各种目的滥用语言模型的成本效益和技能密集度如何?

后台回复关键词【入群

加入卖萌屋NLP/IR/Rec与求职讨论群

后台回复关键词【顶会

获取ACL、CIKM等各大顶会论文集!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/479082.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

事实感知的生成式文本摘要

哈工大的事实感知的生成式文本摘要

Android官方开发文档Training系列课程中文版:OpenGL绘图之响应触摸事件

原文地址:http://android.xsoftlab.net/training/graphics/opengl/touch.html 使图形按照程序设计的轨迹旋转对OpenGL来说还是不能发挥出它应有的实力。但要是能使用户可以直接控制图形的旋转,这才是OpenGL的真正目的。它真正的关键所在就是使程序可以交…

LeetCode 26. 删除排序数组中的重复项

1. 题目 给定一个排序数组,你需要在原地删除重复出现的元素,使得每个元素只出现一次,返回移除后数组的新长度。 不要使用额外的数组空间,你必须在原地修改输入数组并在使用 O(1) 额外空间的条件下完成。 来源:力扣&…

论文浅尝 | Data Intelligence - 多篇语义资源论文

本文转载自公众号:DI数据智能 。 编者按:Data Intelligence最新发表一组语义资源论文,包括世界著名语义网技术专家荷兰阿姆斯特丹自由大学计算机科学系Frank van Harmelen教授团队的Constructing and Cleaning Identity Graphs in the LOD C…

人物志 | 美团首席科学家夏华夏:不断突破边界的程序人生

“成长没有什么秘笈,就是坚持不断地一点点突破自己的边界就好。” 这是美团首席科学家、无人配送部总经理夏华夏在刚刚过去的“1024 程序员节”时送给技术同行的一句话。 这也是夏华夏自己的人生写照:从没摸过计算机的山东高考状元到清华计算机系的学霸&…

我的《Android官方开发文档Training系列课程中文版》的中期翻译计划

从2016年的3月份开始到现在,对于Android文档的翻译已经进行了两个月的时间。虽然数量还不及总篇数的一半,但是经过一番整理,发现翻译的文章还不少,目前为止已经有56篇了。这个过程也陆陆续续的坚持了下来。现在回头看刚开始翻译的…

Github星标超3k的推荐系统入门资料合集(含教程、论文、代码、数据)

本篇文章是对公众号《机器学习与推荐算法》历史文章的汇总以及对干货内容的梳理,力争把最全面的干货与最完整的知识体系以最清晰的方式呈现给大家,希望大家能够精准快速地获取到自己想学习的内容,尽到一个干货推荐系统应尽的职责。1 历史文…

Python3中遇到UnicodeEncodeError: ‘ascii‘ codec can‘t encode characters in ordinal not in range(128)

原文链接:https://blog.csdn.net/th_num/article/details/80685389 Python3中遇到UnicodeEncodeError: ascii codec cant encode characters in ordinal not in range(128) 但是在windows上面运行代码正常。 原因是因为:linux系统语言导致的。 查看了一下…

论文浅尝 | 低资源文本风格迁移数据集

来源:AAAI2020论文链接:https://www.msra.cn/wp-content/uploads/2020/01/A-Dataset-for-Low-Resource-Stylized-Sequence-to-Sequence-Generation.pdf概述:低资源样式化的序列到序列(S2S)生成是高需求的。但由于数据集…

Android官方开发文档Training系列课程中文版:动画视图之转场框架介绍

原文地址:http://android.xsoftlab.net/training/transitions/index.html 引言 Activity所呈现的UI经常会由用户的输入或者其它事件而发生变化。比如,一个含有输入框的Activity,在用户输入要查找的关键字之后,这个输入框就会隐藏…

机器学习竞赛中,为什么GBDT往往比深度学习更有效?

在过去的几年里,大多数的推荐算法都是基于深度学习(DL)方法。遵循我们领域的一般研究实践,这些工作证明了新的DL方法在离线实验中优于其他不基于深度学习的模型。然而,在与推荐相关的机器学习竞赛中(如与年…

2020年算法工程师技术路线图

原文链接:https://cloud.tencent.com/developer/article/1689082 重磅干货,第一时间送达作者丨字节知乎来源丨https://zhuanlan.zhihu.com/p/192633890极市导读算法工程师如何获得技术方面的成长?本文从工程基础、算法基础、算法工程交叉、工…

浅谈大型互联网企业入侵检测及防护策略

前言 如何知道自己所在的企业是否被入侵了?是没人来“黑”,还是因自身感知能力不足,暂时还无法发现?其实,入侵检测是每一个大型互联网企业都要面对的严峻挑战。价值越高的公司,面临入侵的威胁也越大&#x…

征稿 | Big Data Research 专刊(影响因子 2.95)

征稿截止:2020年06月15日近年来,学术界和工业界领域都相继构建和发布了越来越多的大规模知识图谱,如DBpedia、YAGO、Freebase、Wikidata、Google knowledge Graph、Microsoft Satori、Facebook Entity Graph等。事实上,来自不同领…

Android官方开发文档Training系列课程中文版:动画视图之场景创建

原文地址:http://android.xsoftlab.net/training/transitions/scenes.html 场景存储了View层级的状态,包含所有的View及View的属性。转场框架在启动场景与结束场景之间运行动画。启动场景通常由当前的UI状态自动决定。对于结束场景,转场框架…

不要再问Python了!

很多小伙伴问如何学习Python,哪里可以找到实战的Python项目,有没有爬虫案例等等。今天给大家分享一份我整理的Python大全学习资料(文末有获取方式)。话不多说,直接上干货。首先,全部资料目录压缩简单看下里…

GCN】在NLP中应用GCN的几种构图方法整理

GCN】在NLP中应用GCN的几种构图方法整理:https://blog.csdn.net/qq_27590277/article/details/106264292

Android官方开发文档Training系列课程中文版:动画视图之应用场景

原文链接:http://android.xsoftlab.net/training/transitions/transitions.html 在转场框架中,动画是由一帧帧的图像连续绘制形成的,这一帧帧的图像描述了启动场景到结束场景的整个过程。转场框架将这些动画作为一个转场对象,这个对象包含了…

CAT 3.0 开源发布,支持多语言客户端及多项性能提升

项目背景 CAT(Central Application Tracking),是美团点评基于 Java 开发的一套开源的分布式实时监控系统。美团点评基础架构部希望在基础存储、高性能通信、大规模在线访问、服务治理、实时监控、容器化及集群智能调度等领域提供业界领先的、…

论文浅尝 - TACL2020 | TYDI QA:Google 发表一个多语言的问答语料库

论文笔记整理:吴林娟,天津大学硕士。链接:https://arxiv.org/ftp/arxiv/papers/2003/2003.05002.pdf动机具有挑战性、值得信赖的评估数据可以促进多语言模型的发展,为了鼓励对多语言问答技术的研究,作者提出了数据集Ty…