清华大学孙茂松:透过喧嚣,坐看云起,NLP 的迷思与感悟

来源:智源社区

图源:澎湃新闻

2010年深层神经网络在语音识别研究方向上取得里程碑式进展,以这一事件为新起点和新动能,整个人工智能领域迅速跃迁到深度学习时代,包括自然语言处理(NLP)等关键领域也获得了长足发展。

十年间,深度学习在NLP的绝大多数任务上都取得了明显的性能水平提升,近年来更是出现了以BERT和GPT3为代表的大规模预训练语言模型,成为全球人工智能领域技术竞争的战略焦点和热点,甚至引领了一个时期的潮流。

基于深度学习的自然语言处理技术正沿着“极大数据、极大模型、极大算力”的轨道,“无所不用其极”地一路奋进。但这条路走到极致,前景又会是怎样的呢?

放眼看过去,热热闹闹,“乱花渐欲迷人眼”,但在研究上,以及真正解决问题的深刻程度上,似乎却仍停留于“浅草才能没马蹄”的阶段。

清华大学孙茂松教授在“第六届语言与智能高峰论坛”的主旨演讲中,就此类迷思进行探讨。智源社区根据其报告,将核心内容整理如下,供读者参考。

报告人:孙茂松,清华大学教授,智源研究院NLP重大方向首席科学家

整理:张虎,牛梦琳

校对:戴一鸣

总基调:深度学习让NLP提升到了一个新的格局

2010年深层神经网络在语音识别研究方向上取得里程碑式进展,以这一事件为新起点和新动能,深度学习将NLP提升到了一个新的格局。

深度学习将自然语言处理从象牙塔里的理性主义方法中解放了出来,从此可以切实地应用到实际应用中。例如,作为典型的应用场景,机器翻译行业得到了快速的发展。基于深层神经网络的方法比起上一代基于香农信息论的统计机器翻译方法,在翻译效果上有了质的飞跃。

本演讲将从机器翻译出发,来阐释深度学习时代自然语言处理的进展,存在的问题与挑战以及一些解决方法。

一、基于深度学习的机器翻译

基于深度学习技术的机器翻译技术,比上一代基于香农信息论的统计机器翻译方法,在效果上有了显著提升。

目前相当多提供人工翻译服务的企业,一般都会先进行一轮机器翻译,然后再进行人工翻译,这种工作模式会显著提高翻译效率和质量。但是,从翻译专家的角度来看(这里引用美国当代著名学者、认知科学家、曾获普利策非小说奖的《哥德尔、埃舍尔、巴赫:集异璧之大成》作者侯世达先生对谷歌机器翻译效果进行测试后说过的一句话):“机器翻译反映的是企业的目标,而不是哲学的目标”。

由于基于深度学习的机器翻译方法没有对语义信息进行深层次的理解,所以当前的翻译质量只能达到差强人意的程度。100多年前严复先生在《天演论》“译例言”中讲到“译事三难:信、达、雅”三个翻译境界,而现在机器翻译的追求目标还仅停留在“信”这个层次,与“雅”这个层次相差甚远。

下面,针对三大企业提供的机器翻译服务,对当前基于深度学习的机器翻译技术进行案例观察:

首先,随机选取对奥运选手苏炳添的报导中的一段文字,分别在Google翻译,百度翻译,搜狗翻译三个平台上进行中译英的开放测试。尽管三者在模型上有差异,但都能基本正确翻译整段文字,对于长难句中的连词翻译也比较准确,基本做到了“信、达、雅”中的“信”字,这体现了深度学习的威力。对这段文字,搜狗翻译得相对最好,不妨以之体会一下机器翻译目前达到的水平:

但美中不足的是,其中个别较难的问题还是没有处理好。如三个翻译平台都将“唯二”一词错误翻译成了“only”。估计翻译模型在训练语料中没怎么见过“唯二”的译法,所以只好找到了最接近的词语“唯一”,译成“only”。

再试另一个难的例句:“我家门前的小河很难过”,三个平台都把“难过”一词错误地翻译成了“sad”。

最后观察一下世界机器翻译研究先驱Yehoshua Bar-Hillel在其1960年发表的关于机器翻译发展前景判断的著名文章中给出的、貌似非常简单的经典翻译难句:“The box was in the pen”,这三个平台都错误地翻译成“盒子在钢笔里”。在现实世界中,pen其实有两个含义,一是钢笔,二是围栏。要译对这个词,机器需要知道box与pen的大小关系,以及介词in的意思等深层次语义信息。这涉及到无所不包的世界知识。

从上面若干案例分析中可以看到:机器翻译需要语义知识乃至世界知识的系统性介入才有可能处理好比较难难的翻译,全自动高质量的机器翻译,目前还做不到。基于深度学习技术的自然语言处理任务,主要还是利用极大规模语料库,目前并没有找到一个较好的方法解决自然语言处理中的深层语义理解问题。

上一代基于理性主义的方法,试图在人工构造语法规则集、语义形式化严重不足的条件下解决翻译问题,这种做法已被实践验证基本行不通;而现有的深层神经网络主要依赖“生”的双语语料库,试图从语料里发现某种对应关系或关联规则,而不去做深度的语义分析——这也是深度学习的最大优势。

然而,正所谓“成也萧何,败也萧何”,利用深度学习的方法来完成机器翻译,从本质上来讲,它并没有真正从深层次语义角度出发来理解这句话。这是它与生俱来的“阿克琉斯之踵”:它不会有意识地利用语义信息,对于未曾遇见的词语,通常会自动选择一个它见过的“形似”词语来猜测,碰到没有见过的更复杂的语义现象,只能撞大运乱猜。

当前机器翻译遇到的“窘境”是可利用的系统性世界知识严重不足,同时缺乏语义分析有效手段。

二、大规模预训练语言模型

从早期的机器翻译,到现在以BERT和GPT-3为代表的大规模预训练语言模型,基于深度学习的自然语言处理技术,已成为了世界范围内整个人工智能领域技术竞争的战略焦点和热点,它也正沿着“极大数据、极大模型、极大算力”的轨道,“无所不用其极”地一路奋进。

毫无疑问,大规模预训练语言模型,是一种非常重要的语言信息公共基础资源。随着深度学习的发展,当前无论学术界还是工业界都需要这样一个公共基础资源。它的最大好处是可以把互联网上所有的语言信息关联起来,使得我们在处理具体任务时,不会基于“一片荒原”,而是基于四面八方已经经过初步耕耘的土地。这个工作无疑是十分重要的,其作用具有普适性和不可或缺性。

同时我们也要注意到,大规模预训练语言模型“包容万象”,实质上是一种“泛读”,类似“万金油”,所以应该会存在“泛而不精”的不足,虽然对每一种语言处理具体任务都有作用,但使用起来的实际效果可能会“雾里看花”,不一定很理想。

尽管不少论文号称通过few-shot便可以实现模型迁移,但相信利用一个专门针对具体任务的一定规模的训练数据集在大规模预训练语言模型上做精调,实际效果应该会更好。

这里面还有若干不太清楚的问题,需要通过研究搞清楚,比如,那些与某个具体任务毫不相干的语料(可以设想这部分语料比相干语料的规模会大很多倍)一股脑地被拿来训练大规模预训练语言模型,是否划算(消耗或占用了太多的各类算力资源)?会不会引入了过多噪音而使针对具体任务的系统性能明显下降呢?

大规模预训练语言模型当前面临着一个最大问题是:规模(指数据、模型、算力)的极致化能走多远?很多著名机构,如百度、北京智源人工智能研究院等,都在努力将规模推到极致,从工程角度来看,极致化是有现实意义的。其实只需有一个这样的模型,如果大家都可以用,就可以了,不必谁都搞一个。

但同时也有不少学者对规模极致化的科学意义提出了质疑。从研究角度来看,极致化到底能走多远是一个问号。人们或许期待量变能引起质变,但是,量变引起质变的前提是需要模型内部存在合理的结构或机制作为支撑。否则好比对牛弹琴,无论弹多久,牛也不能听懂音乐。大规模预训练语言模型很可能会遇到这种瓶颈,量变到相当程度后,其性能增益的趋势将会趋向平缓。

对于目前的大规模预训练语言模型,如GPT-3,虽然已经引入了近乎人类所有的文本,但对语义的控制能力实际上还是很不足的,如这里给出某个典型大规模预训练语言模型生成的一组句子:输入“沿着人满为患的山间小径一路走去,未见”,模型会续以“任何人”。这反映了大规模预训练语言模型的本质缺陷。

语义控制能力不足会导致模型生成的文本显得絮絮叨叨的(尤其是生成长文本),语言逻辑关系似是而非,经不起稍加推敲。基于GPT-3的文本生成模型依然免不了被人们称为“统计鹦鹉”。

大规模预训练语言模型需要克服的主要挑战与机器翻译“窘境”是完全一样的:可利用的系统性世界知识严重不足,同时缺乏语义分析有效手段。

三、总结

纵观自然语言处理的发展现状中,放眼望去,似乎热热闹闹,各种技术层出不穷,颇有“乱花渐欲迷人眼”之势,但在科学研究的深刻程度上,依旧停留于“浅草才能没马蹄”的境地。深层神经网络在自然语言处理上的“阿克琉斯之踵”——大规模语义和世界知识的建设及运用难题有待破解。

自然语言处理目前或正处于一种“行到水穷处”的阶段。这也是下一代深度学习发展的历史性节点。此时应该保持一种“坐看云起时”的态度,要通过提高研究的理论高度和深刻性来积极摸索破局的办法,以期可以走得更远。

未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)大脑研究计划,构建互联网(城市)大脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。每日推荐范围未来科技发展趋势的学习型文章。目前线上平台已收藏上千篇精华前沿科技文章和报告。

  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/483849.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

2022年科学突破奖,9人共获奖金1500万美元,mRNA 新冠疫苗2位奠基人获奖

来源:科研圈编辑:David9 月 9 日,2022 年科学突破奖获奖名单在美国旧金山公布。生命科学奖、物理学奖、数学奖分别授予 5 个项目共 9 位科学家,每个项目奖金金额为 300 万元。新冠 mRNA 疫苗技术奠基者 Katalin Karik 与 Drew Wei…

多巴胺如何驱使我们克服复杂情况、逆境、情绪, 让我们掌控周遭的环境的

来源:本文摘自《贪婪的多巴胺》仅仅是“想要”很少能让你得到任何东西。你必须弄清楚如何获得它,以及它是否值得拥有。事实上,如果我们做事时不考虑怎么做和下一步做什么,失败甚至不是最坏的结果。结果可能从吃得有点儿多发展为不…

火爆股市的元宇宙,究竟关VR/AR什么事?

来源:VR每日必看VR设备被普遍认为是进出元宇宙的主要终端,据Wind数据,VR概念的上市公司包括歌尔股份、中科创达、欣旺达等55家公司。大洋彼岸的“蝴蝶”扇动翅膀,A股的元宇宙概念也火热起来。A股代表性企业中青宝已经连续两日“20…

2018-2019-2 网络对抗技术 20165301 Exp2 后门原理与实践

2018-2019-2 网络对抗技术 20165301 Exp2 后门原理与实践 实验内容 (1)使用netcat获取主机操作Shell,cron启动(2)使用socat获取主机操作Shell, 任务计划启动(3)使用MSF meterpreter(或其他软件)生成可执行文件,利用ncat或socat传送…

世界机器人大会|人工智能VS人类

来源:新华社作者:北京邮电大学人工智能学院 刘伟配音:郑琬策划、终审:刘君校对:周雪晴2021世界机器人大会于9月10日至13日在北京召开,世界机器人博览会及世界机器人大赛将同期举办。其实,智能不…

LeetCode LCP 06. 拿硬币

题目:桌上有 n 堆力扣币,每堆的数量保存在数组 coins 中。我们每次可以选择任意一堆,拿走其中的一枚或者两枚,求拿完所有力扣币的最少次数。 示例 1: 输入:[4,2,1]输出:4解释:第一…

华为:憧憬6G,共同定义6G

来源:华为华为心声社区发布了由徐直军签发的总裁办电子邮件,邮件内容为徐直军为《6G无线通信新征程》一书作的序《憧憬6G,共同定义6G》。徐直军在文中表示,6G将在2030年左右投向市场,究竟市场将会迎来什么样的6G&#…

“中国诺奖”2021未来科学大奖公布:袁国勇、裴伟士、张杰、施敏获奖,总奖金300万美元...

来源:学术头条中国首个由科学家、企业家共同发起的民间公益组织颁发的世界级科学大奖——未来科学大奖,9 月 12 日正式揭晓 2021 年生命科学奖、物质科学奖、数学与计算机科学奖获奖名单。香港大学袁国勇、裴伟士获得生命科学奖。获奖理由:他…

实验二——函数重载,快速排序,类对象

函数重载&#xff1a; #include<iostream> using namespace std; struct complex{ double real; double imaginary; }; int add(int,int); double add(double,double); complex add(complex,complex); int main() { int a12,b13; double a22.0,b23.0; struct complex num…

LeetCode 771. 宝石与石头

题目&#xff1a; 给定字符串J 代表石头中宝石的类型&#xff0c;和字符串 S代表你拥有的石头。 S 中每个字符代表了一种你拥有的石头的类型&#xff0c;你想知道你拥有的石头中有多少是宝石。 J 中的字母不重复&#xff0c;J 和 S中的所有字符都是字母。字母区分大小写&#…

【前沿技术】Facebook 硬件负责人,带摄像头的智能眼镜将在 10 年内成为常态

拍照功能将在十年内成为智能眼镜的标准配置来源&#xff1a;智能研究院在 Facebook 与 Luxottica 的首款智能眼镜合作产品 Ray-Ban Stories 发布后&#xff0c;Facebook 硬件业务负责人 Andrew Bosworth 周五在与 Essilor Luxottica 的首席可穿戴设备官 Rocco Basilico 交谈时表…

9大领域50名青年学者获2021年科学探索奖,单人奖金300万元

来源&#xff1a;科学探索奖官网、科学网等9 月 13 日&#xff0c;2021 年科学探索奖获奖人名单公布&#xff0c;来自 9 个领域的 50 名青年科学家获奖。其中包括 8 名女性科学家&#xff0c;最年轻获奖者仅 32 岁。他们将在 5 年内获得总计 300 万元人民币的奖金&#xff0c;可…

多角度回顾因果推断的模型方法

来源&#xff1a;AI干货知识库推断因果关系&#xff0c;是人类思想史与科学史上的重要主题。现代因果推断的研究&#xff0c;始于约尔-辛普森悖论&#xff0c;经由鲁宾因果模型、随机试验等改进&#xff0c;到朱力亚珀尔的因果革命&#xff0c;如今因果科学与人工智能的结合正掀…

Eclipse+ADT+Android SDK 搭建安卓开发环境

要求&#xff1a;windows 7 基本操作。运行环境&#xff1a;windows 7(64位); eclipse-jee-luna-SR2-win32(32位);ADT-23.0.4 最近刚开始接触Android(安卓)嵌入式开发&#xff0c;首要问题是搭建Andoid开发环境&#xff0c;由于本人用的是windows7的笔记本&#xff0c;也就只能…

骆利群院士最新Science综述:神经环路架构,激发新的AI

来源&#xff1a;ScienceAI编辑&#xff1a;凯霞人脑包含大约 1000 亿个神经元&#xff0c;每个神经元都有数千个突触连接。尽管单个神经元是神经系统的基本单位&#xff0c;但正是它们的突触连接模式使神经元能够为特定功能形成专门的神经环路&#xff0c;从而使大脑成为强大的…

软件设计作业 1

第一部分先列出本次采用Scrum敏捷编程的任务完成情况&#xff0c;并写出心得 酒店管理系统能够极大的方便酒店的工资人员在关于酒店的管理的操作&#xff0c;如客人入住、退房&#xff0c;信息录入、查询等&#xff0c;极大的提高了酒店整体管理活动的工作效率。 使用Scrum使得…

决策树简介与入门

决策树表示对象属性&#xff08;比如贷款用户的年龄、是否有工作、是否有房产、信用评分等&#xff09;和对象类别&#xff08;是否批准其贷款申请&#xff09;之间的一种映射。使用层层推理来实现最终的分类。  根节点&#xff1a;包含样本的全集  内部节点&#xff1a;对…

前端vue实现pdf文件的在线预览

3.前端vue实现pdf文件的在线预览 我是通过 <iframe> 标签就可以满足我工作的 pdf预览需求 如果<iframe> 无法满足需求 &#xff0c; 可以使用pdf.js这个插件&#xff0c;功能强大。 <iframe:src"url"type"application/x-google-chrome-pdf"…

中国科学院院士骆清铭: “看见”大脑

来源&#xff1a;瞭望 新闻周刊编辑&#xff1a;宋若一责任编辑&#xff1a;冀娴贤文&#xff1a;《瞭望》新闻周刊记者 扈永顺 ◇以工业化的方式大规模、标准化地产生数据并绘制脑图谱&#xff0c;将改变神经科学已有的研究方式◇“全脑介观神经联接图谱”大科学计划目前已凝…

聚类算法 K-Means 简介与入门

K-Means 算法是最简单的一种聚类算法&#xff0c;属于无监督学习算法。 聚类和分类最大的不同在于&#xff1a;分类的目标是事先已知的&#xff0c;而聚类则不一样&#xff0c;聚类事先不知道目标变量是什么&#xff0c;类别没有像分类那样被预先定义出来。 假设我们的样本是 …