ACL 2019年度回顾:自然语言处理发展趋势

640?wx_fmt=jpeg

大数据文摘出品

来源:mihaileric

编译:赵伟、邢畅、张秋玥

今年7月底,计算语言学协会年会(ACL)在风景优美的佛罗伦萨召开。会场设在了一座古老的Medici家族的城堡中。

作为NLP研究最大规模的会议之一,ACL 2019的规模也再破新高,共接收到2900多份论文,比2018年增加75%!

在今年的会议中,NLP应用全面开花,而以BERT为代表的NLP预训练技术也不出意料地抢尽风头。除此之外,NLP技术可解释性和评判体系等更为基础的研究也都有新突破。学者们也深入讨论了NLP研究中潜在的歧视、偏差问题。

毕业于斯坦福大学,目前就职于亚马逊Alexa AI的Mihail Eric小哥在参会之后写下了ACL 2019的详细回顾。

让我们跟着他一起回顾一下今年ACL大会的精彩瞬间!

减少NLP偏差

ACL主席、来自微软亚研院的周明老师在开幕致辞中指出,今年的ACL会议是规模最大的一届,共接收到2900多份论文,比2018年增加75%!自然语言处理领域炙手可热?,学界和业界热情创历史新高。

然而,这些关于行业景气的统计数据并不能完全描述全球NLP利润分布。市场增长的大部分发生在北美(由美国主导)和亚洲(由中国主导),而南美洲和非洲的大部以及欧洲的许多国家占比较低。因此,目前NLP的发展可能存在地理上的误差,即我们并没有获得多样化的观点和意见来促进该领域的发展。

正如周明老师所指出(根据他在亚太地区发展NLP社群的经验),一个办法就是在代表性不足的地区举办更多的会议和活动,就像那样以在主办地区(亚太地区)来发展更多的会员一样。为了解决这种代表性不足的问题,各方已经照此做了很多工作,比如创立Deep Learning Indaba。

640?wx_fmt=jpeg


除了地理误差之外,在当前的自然语言处理发展中越来越出现一些诸如性别偏见这样的不良趋势。一些论文通过实证研究支持了这些事实。例如,Stanovsky等人证明了四种工业机器翻译系统以及两种当前最先进(SOTA)的学术模型都非常容易出现基于性别的翻译错误。

整个NLP社区也很清楚这个问题,因此许多人做了些有意思的工作。例如Kaneko等人开发了一种用于词汇嵌入的去除偏见方法,它可以保留非性别歧视的相关信息,同时消除刻板印象的性别偏见。在更高层次上,今年ACL还在NLP研讨会上主持召开了第一届NLP性别偏见会议,这些会议致力于将研究这些问题的研究人员聚集在一起以提高认识、促进讨论。

对此还有很多工作要做,但看到NLP社区积极采取措施来缓解偏见的好兆头令人振奋。

丰富的NLP应用程序

自然语言处理生机勃勃,因为我们领域开发的模型和工具已进入能够解决许多实际问题的阶段了——这一点在观看会议上展示的各种NLP应用时表现得尤为明显。

在这个假新闻泛滥和关于大脑神经的了解尚不充分的时代,验证陈述真实性的方法较之以往越来越不一样。Shengli Hu建立了一个系统,利用声学和语言学特征来识别文本和语音中隐藏的信息,其准确率超过人工判别准确率15%!

在健康领域,Shardlow等人开发了一种神经模型,通过特定域的短语表使医生编写的临床信件对患者更具可读性。与此相关,Du等人建议从临床对话中提取症状以及基线模型,这样做可以减少初级保健医生为了了解病情而必须花费在查阅临床文献系统上的时间。


640?wx_fmt=jpeg

今年的ACL还有一个专门讨论应用于生物学问题的NLP的研讨会。例如,Fauqueur等人展示了一项无需训练数据或手动更改某些规则即可从生物医学文献中提取新发现的技术。另有一篇Rajagopal和Vyas等人的论文,他们先在大型数据集上预训练LSTM-CRF模型、然后再在规模较小的语料库上进行微调以在标准数据集上实现21 F1点的改进,从而使得语义角色标注系统适应生物过程!

另有其它一些关于NLP的很神奇的应用,如Zhang等人的工作。为了解决电子邮件主题行生成的问题(就像Gmail用于生成电子邮件标题的智能回复那样),他们首次展示了一个有广阔应用前景的模型,无论是机器还是人工评估,该模型都很好地解决了这个应用问题。

预训练,再微调:NLP的新范例

2011年,Krizhevsky等人关于神经网络开创性工作使得计算机视觉领域彻底地爆发了一场革命。与之类似,应用于自然语言处理的深度学习也是一个正在爆炸性增长的领域。

从2015年到2017年,NLP中的大多数任务都可以通过一个简单明了的公式来解决:通过某种连续的矢量表示嵌入输入文本,编码文本,手动修改,然后对你的任务做适当的预测来对文本精修。


Matthew Honnibal在这篇文章中生动地描述了这种形式体系:

https://explosion.ai/blog/deep-learning-formula-nlp

嵌入、编码、手动修改、预测等等在概念上很简单,但是正迅猛发展,目前已在在所有类型的任务上都实现非常优秀的结果,例如机器翻译、回答问题以及自然语言推理等等。在过去的一段时间内这样看起来都没有什么问题。

但是现在,不得不说规矩变了。随着那些使用诸如ELMO、OpenAI GPT和BERT等语言建模目标进行训练的强大预训练模型的出现,NLP技术的开发已经成为选择某种现有的、已在庞大数据集上预训练好的模型,再在一些小规模的、领域内的语料库进行微调以使其适宜使用。实际上,这一策略已成功地在现有的NLP基准测试程序中取得了可观的SOTA效果。

在ACL,这一策略的主导地位得到了一些已发表的工作以及人们对NLP现状普遍态度的背书。Dai和Yang等人的一项工作试图进一步发展基于Transformer的语言模型,极大地提高了模型处理速度,使其达到顶尖复杂度数量级。另一项代表性的工作是Liu和He等人所做出的,它利用BERT衍生出的架构,其性能GLUE基准测试排行榜遥遥领先(截至论文提交时)。

除开这些工作,围绕会议的一般性讨论是,如果他们使用像BERT这样的方法,许多现有架构的性能可以提高几个百分点。因此现有问题就变成了:这种新范式是否使NLP中的许多建模创新变得无足轻重?

我个人认为答案是否定的。总的来说,这儿仍有许多未做的工作,而这些对于推动NLP下一次迭代至关重要。我在下面说明几点。

将知识融入NLP结构

虽然现有的预训练语言超模型体系结构非常强大,但是从原始文本语料库中训练可以使你得到想要的学习效果。换句话说,这类模型学到的东西是不受约束的,其优越性能可能只是巨大训练数据集中不同语境下的文本序列实例。我们能否通过融入基础知识来超越这一点呢?

ACL有很多论文试图解决这个问题。


例如,Zhang等使用类型化实体嵌入和底层知识图对齐来增强BERT表示,结果表明他们的模型在实体类型和关系分类方面可以胜过BERT。


论文链接:

https://arxiv.org/pdf/1905.07129.pdf


Yang等通过提出KT-NET解决了这一问题,KT-NET使用注意力机制来融合从WordNet和NELL等知识库中选中的信息,从而得到了SQuAD 1.1上的最优结果。


论文链接:

https://www.aclweb.org/anthology/P19-1226


另一篇不错的论文来自Logan等,他们提出了知识图语言模型,这是一种生成架构,可以有选择地从与底层上下文相关的知识图中复制事实,性能优于强大的基线语言模型。


论文链接:

https://arxiv.org/pdf/1906.07241.pdf

虽然将先验知识融入神经模型确实是一个难题,但结果显示前途无量!

模型的可解释性

神经网络一直被认为是黑盒模型,要真正理解其学习到的决策函数非常困难。撇开对这些模型的完全可解释性是否严格必要的考虑,对模型内部结构的理解可以指导未来的结构设计。ACL上的几篇优秀论文旨在对现有模型进行该方面研究。

Serrano等的工作挑战了这一公认的难题,尽管注意力机制有时对表明模型结构的概念非常重要,但在某些情况下,其他替代性的排名指标可能更有效地解释模型决策过程。


论文链接:

https://arxiv.org/pdf/1906.03731.pdf

Jawahar等探究了BERT学习到的语言结构,发现BERT学习到了丰富的语言信息,包括底层的表层特征,中层的句法特征和顶层的语义特征。他们还进一步指出,学习长距依赖信息会需要更深的网络层次。


论文链接:

https://hal.inria.fr/hal-02131630/document

Gehrmann等开发了一种工具,通过对预测单词标记的模型密度可视化,以检测神经网络生成的假文本,这使得人类用户的检测率提高了近20%。Sydorova等研究了一些事后解释方法,如问答系统上的LIME,证明了某些技术可以帮助人们从几个选项中识别出更好的QA模型。


论文链接:

https://hal.inria.fr/hal-02131630/document

https://arxiv.org/pdf/1906.10924.pdf

https://github.com/marcotcr/lime

反思自然语言生成中的评价与假设

作为一个研究对话系统的人,自然语言生成任务的复杂性是我最感兴趣的地方了——尤其是在模型评估仍然是一个非常有争议的问题时。因此,看到人们正在积极努力改善现状,我真的非常欣慰。

首先,Maxime Peyrard证明,在评估某些评分范围内的表现时,某些自动评估汇总指标是不一致的。


Clark等提出了一种基于句子划窗相似性的生成文本评价指标,该指标与人类判断结果的相关性优于公认的ROUGE。

模型生成的文本往往会出现事实错误和虚假陈述。因此,Falke等研究了自然语言推理系统能否重新排序输出从而解决这一问题。他们发现开箱即用的NLI系统不能很好地适应下游任务,因此提供了使这些系统达到所需性能的工具。

Maximme Peyrard还进行了更为基础的工作,从理论上对冗余、相关性和信息量等概念进行了严格的定义。

除了评价之外,Sankar等对传统的循环网络和基于transformer的seq2seq对话模型可以从对话历史中学习的假设提出了质疑。他们指出,这些模型对应用于上下文的某些扰动并不十分敏感,这对对话自然语言生成器的有效性构成了挑战。


论文链接:

https://www.aclweb.org/anthology/P19-1502

https://homes.cs.washington.edu/~nasmith/papers/clark+celikyilmaz+smith.acl19.pdf

http://www.aclweb.org/anthology/W04-1013

https://leoribeiro.github.io/papers/acl19-summary-correctness.pdf

“预训练-微调”之外的范式

虽然现在的NLP模型不断迭代、不断更新最优结果, NLP社区普遍认为仍然有一些需要改进的地方。我们处于一个有点棘手的情况中,因为我们经常使用基准测试来衡量任务的进展,但是这些模型中的许多模型在这些现有的NLP基准测试上已经接近、甚至超过了人类的性能。那么我们应该怎么办?

这是Zellers等提出的问题,他们在早期的研究中已经为常识自然语言推理问题引入了一个具有挑战性的数据集,但在发布后不久就发现BERT的性能已经接近人类的表现。为了解决这个问题,作者提出了一个后续数据集,该数据集使用一种被称为对抗性过滤的技术,用于选择BERT和其他模型难以回答的示例。在此过程中,他们极大地增加了基准测试的复杂度。

BERT当然不是完美的。Nangia 等的一项研究表明,基于BERT的模型很难处理稀缺资源的句子分类任务,并提出了一种名为SuperGLUE的后续自然语言理解基准,专门用于评估这种情况。

McCoy等的另一项工作表明,应用于自然语言推理的BERT模型学习的是非常简单的语法启发式,这不能很好地推广到其他实例。他们还发布了一个评估集,以确定模型是否采用这些启发式,但没有解决更一般的推理问题。

Min和Wallace等的相关论文表明,针对多跳问答基准的HotpotQA数据集提出的许多模型实际上并不需要执行多跳推理就能获得良好的性能。

总而言之,我认为目前的大部分模型仍然在解决数据集问题,而不是在处理实际任务。我们构建的模型在获取和利用特定数据集的偏差方面效果惊人。在这个过程中,我们的评估指标描绘了相当具有误导性的画面。这让我想起Goodhart定律:当一个指标变成目标,它就不再是一个好的指标了。那么我们该如何前进呢?

鉴于这些评估基准是自然语言任务的代理,考虑到模型开发的快速速度,假定基准保持不变似乎是不合理的。相反,我发现特别有希望的是,开发一套不断变化的、难度越来越大的基准测试,能够进一步推动自然语言能力的提升。也许这套基准的极限,就是我们在机器中实现人类级别的NLP表现的方式。

最后,我在ACL的一周内,真正感受到NLP领域正在蓬勃发展!社区正经历着非常激动人心的时刻,有许多前途无量的发展即将出现。过去一年,社区取得了长足的进步,但仍有不少突出的挑战和有待解决的问题。


论文链接:

https://arxiv.org/pdf/1905.07830.pdf

https://arxiv.org/pdf/1905.10425.pdf

https://arxiv.org/pdf/1905.00537.pdf

https://arxiv.org/pdf/1902.01007.pdf

https://arxiv.org/pdf/1906.02900.pdf

相关报道:

https://www.mihaileric.com/posts/nlp-trends-acl-2019/


640?wx_fmt=jpeg

张亚勤、刘慈欣、周鸿祎、王飞跃、约翰.翰兹联合推荐

这是一部力图破解21世纪前沿科技大爆发背后的规律与秘密,深度解读数十亿群体智能与数百亿机器智能如何经过50年形成互联网大脑模型,详细阐述互联网大脑为代表的超级智能如何深刻影响人类社会、产业与科技未来的最新著作。

《崛起的超级智能;互联网大脑如何影响科技未来》2019年7月中信出版社出版。刘锋著。了解详情请点击:【新书】崛起的超级智能:互联网大脑如何影响科技未来

未来智能实验室是人工智能学家与科学院相关机构联合成立的人工智能,互联网和脑科学交叉研究机构。

未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)云脑研究计划,构建互联网(城市)云脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。

  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”640?wx_fmt=jpeg

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/490648.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Python基础:获取迭代器下一项目的常见操作

目录 获取迭代器下一项目通常有三种方法 python3中最常见的一种错误使用 获取迭代器下一项目通常有三种方法 next()函数iterator.__next__()属性for循环 next()函数 iterator iter([1,2,3,4,5,6]) a next(iterator) print(a) b next(iterator) print(b) 输出&#xff1…

电商项目的并发量一般是多少_掌握这些,高并发秒杀系统就不用担心了!

很多小伙伴反馈说,高并发专题学了那么久,但是,在真正做项目时,仍然不知道如何下手处理高并发业务场景!图片来自 Pexels甚至很多小伙伴仍然停留在只是简单的提供接口(CRUD)阶段,不知道学习的并发知识如何运用到实际项目…

matplotlib的colorbar设置显示的刻度个数和指定的刻度值

通过matplotlib.ticker.MaxNLocator(nbinsn)来设置colorbar上的刻度值个数 import matplotlib.ticker as ticker fig plt.figure() ax fig.gca() im ax.imshow(np.random.random([10, 10])) cb1 plt.colorbar(im, fraction0.03, pad0.05) tick_locator ticker.MaxNLocato…

Windows下MySQL数据库更改数据存储位置

Windows下MySQL数据库更改数据存储位置 1、创建一个新的存储数据文件 比如,我创建了一个文件 E:\MySQL_Service ,用来放mysql数据。 2、找到配置文件my.ini和mysql原本数据存放位置 之前用的是默认安装位置,我的电脑数据存放的默认路径为…

华为5G手机芯片被唱衰:美研究机构拆解6款量产机,不谈能力对标高通骁龙X50...

来源:凹非寺全球5G手机芯片到底哪家强?能力上来看,量产的华为巴龙5000参数超过骁龙X50,但最近英国研究机构IHS Markit拆解6款5G手机后给出另一面结论:华为手机5G,没高通骁龙有竞争力。IHS的结论&#xff0c…

CSS3-06 样式 5

浮动(Float) 关于浮动,要说的可能就是:一个设置了浮动的元素会尽量向左移动或向右移动,且会对其后的元素造成影响,其后的元素会排列在其围绕在其左下或右下部。似乎就这么简单,但是在实际开发中…

量子纠缠为什么不能用于瞬时通讯?

来源:数学职业家什么是信息? 信息的一个比较被认可的定义是1948年数学家香农在论文中提出的:信息是用来消除随机不定性的东西。比如,盒子里有一个硬币,它可以是正面向上,也可以是反面向上,在打开…

第二次冲刺每日站立会议03

会议照片: 会议内容: 祖浩然: 昨天:学习要进行优化的相关知识 今天:对前两个界面进行界面的修改 遇到的问题:设置背景图片之后按钮无法显示 刘洋: 昨天:学习要进行优化的相关知识 今…

cad菜单栏快捷键_天正建筑菜单栏不见了怎么调出来

在使用天正建筑得出时候,可能会因为不小心,把菜单栏关闭了,却一时不知道怎样打开,下面使用三种方式,教你将不见了的菜单栏调出来。方法一:使用键盘快捷键1.在界面中,我们可以看到,这…

图说报告 | “智能+”的终极版图:数字孪生世界

来源:阿里研究院数字孪生(Digital Twin)是近几年兴起的非常前沿的新技术,进入Gartner2019年十大战略技术趋势行列。今天,从300万个波音777零部件到人类心脏,其数字孪生体都可以复制。在未来的医疗领域&…

MATLAB画频率响应曲线(幅频特性和相频特性)并将横坐标转换为赫兹hz单位

matlab画频率响应曲线的函数为: [h,w] freqz(b,a,n) b,a:传递函数系数 h:频率响应 w:角频率,0~π 更多参数解释参考官方链接https://ww2.mathworks.cn/help/signal/ref/freqz.html?requesteddomaintrue 用freqz…

python3.6配置环境变量_python安裝及环境变量配置

一、安装 1.python下载 进入官网后选择download,选择windows进入如下页面1.1 python3.6.6版本下载 首先我们下载python3.6.6版本,下滑页面找到此位置,64位系统选择红色框框,32位选择蓝色框框点击进行下载 1.2 python2.7版本下载 下…

人与动物之间有没有一条不可逾越的鸿沟?——从基础存在论到生命哲学

来源:《哲学动态》 2018年第12期作者:舒红跃(湖北大学哲学学院)张哲(湖北省道德与文明研究中心)海德格尔《存在与时间》中对“此在”的生存论刻画是哲学史中的经典,此在“在-世界中-存在”是存在…

matlab显示曲线图中某个点的坐标值

在画好一幅曲线图后,有时候我们需要找出某个坐标的点,可以通过打开数据游标功能,此时鼠标点击的位置就会显示出坐标值,如下图: 此时保存下来的图也会带有显示的坐标值。 如果需要显示多个坐标的值,按住alt…

数字滤波器的差分方程和传递函数

差分方程用于描述线性、时不变、因果滤波器 数字滤波器的差分方程表示为: 对应的系统函数/传递函数为: a_k,b_k为滤波器系数 当a_k0时,滤波器当前的输出仅依赖于输入,而不依赖过去的输出,称为非递归滤波器…

2019年AI实力对决:美国领跑,中国追赶,欧盟弱势

来源: 智东西,Data Innovation美国当地时间8月18日,美国数据创新中心(Center for Data Innovation)发布针对中国、美国和欧洲三大地区的人工智能发展报告,报告显示,目前美国在AI发展中仍然保持领…

谷歌学术搜索技巧:查找一个句子的某个空应该用什么词

在写论文的时候经常遇到某个地方不知道应该用什么词比较专业的问题,举个例子: we used training strategy * in literature [10] *号处应该填什么词比较专业呢 这时可以在谷歌学术找到答案 在谷歌学术搜索中输入: "training strate…

关于未来的蝴蝶效应,《崛起的超级智能》创作有感

来源:刘锋科学网博客前言:2019年7月5日,当我拿到出版社寄出的《崛起的超级智能:互联网大脑如何影响科技未来》时,仿佛在捧着一个刚出生的婴儿。不是十月怀胎,而是历经12年的孕育,2年多的艰苦生产…

LaTeX表格字太贴近上面表线

如图所示,默认情况下有时候会出现表格中的字太贴近上面表线的问题: 解决方法:在\begin{tabular}{c|cc|cc|cc}命令前面加一句\renewcommand{\arraystretch}{1.5} 效果如图: \renewcommand{\arraystretch}{number}命令可以调整表线和…

造出世界最大芯片的公司,Cerebras Systems到底是怎样的存在?

来源:TechSugar最近,一颗巨型芯片的诞生引爆了芯片圈。其面积42225 平方毫米,拥有1.2 万亿个晶体管,400000 个核心,片上内存18G字节,内存带宽19PByte/s,fabric带宽100Pbit/s。是目前芯片面积最大…