BERT为什么是NLP的革新者

来源 | AI前线

作者 | Jerry Wei

译者 | 马可薇

策划 & 编辑 | 刘燕

语言模型 BERT 可以大幅提升许多任务的性能,那么它成功的背后是什么呢?

本文最初发表在 Towards Data Science 博客,由 InfoQ 中文站翻译并分享。

什么是 BERT?

BERT,全称 Bidirectional Encoder Representation from Transformers,是一款于 2018 年发布,在包括问答和语言理解等多个任务中达到顶尖性能的语言模型。它不仅击败了之前最先进的计算模型,而且在答题方面也有超过人类的表现。

BERT 是一个可以将文字转换为数字的计算模型。这个过程是至关重要的,因为机器学习模型需要以数字而非文字为输入,而一款可以将文字转换为数字的算法让人们可以直接使用原始的文本格式数据训练机器学习模型。

BERT 是可以将文字转换为数字的计算模型,图源 Devlin et al., 2019

BERT 为何如此优秀?

对作者来说,BERT 的优秀之处主要在于以下三点: 

第一:使用大量数据预训练

第二:可以处理文字语意

第三:开源

1:BERT 使用海量数据预训练 

BERT 提供两种不同大小模型,BERT-base(使用 BookCorpus 数据集训练,约 8 亿字)以及 BERT-large(使用英文维基百科训练,约 25 亿字)。两种模型均使用了巨大的训练集,而任何一个机器学习领域的人都明白,大数据的力量是相当无敌的。正所谓“熟读唐诗三百遍,不会做诗也会吟”,在见过 25 亿单词之后,再看到新单词时你也能猜到它会是什么意思。

因为 BERT 的预训练非常优秀,所以即使是应用在小型数据集上也能保持不错的性能。举例来说,作者最近参与了一个开发 新冠(COVID-19)自动问答系统 的项目,在没有进一步微调的情况下,BERT-base 在作者使用的数据集中的 15 个类别上,准确率达到 58.1%。更令人惊叹的时,“COVID”这个词甚至不在 BERT 的词汇库中,但它依然获得了相当高的准确率。

 2:BERT 可以处理语意

之前的词嵌入方法,无论一个词处于什么样的语境下,都会返回同一个向量。而 BERT 则会根据上下文,为同一个词返回不同的向量。例如,在下面的例子中,旧方法会为“trust”返回相同的嵌入。

I can't trust you.(我不能相信你。)

They have no trust left for their friend. (他们对自己的朋友已经没有信任感。)

He has a trust fund. (他有一个信托基金。)

相比之下,BERT 可以处理语意,根据“trust”语境的不同返回不同的嵌入。如果算法可以分辨出一个词使用情况的不同,就能获得更多的信息,性能也有可能得到提升。另一个可以处理上下文的语言建模方法是 ELMo。

3:BERT 是开源的

开源是个大加分项。机器学习领域中的很多项目都被开源化,因为代码开源可以让其他的研究人员轻松应用你的想法,从而促进项目的发展。BERT 的代码 发布在了 GitHub 上,同时还附有代码使用相关的 README 文件,这些深入信息对于任何想要使用 BERT 的人来说有很大帮助。

在作者最开始使用 BERT 时,只花费了几分钟下载能运行的 BERT 模型,然后只用不到一小时的时间成功写出可以用在数据集中的代码。

一个非常强大的语言模型会同时具备上文中提到的全部三个方面,而这个模型可以在 SQuAD、GLUE 和 MultiNLI 等大名鼎鼎的数据集上会达到最顶尖的性能。它所拥有的这些巨大优势是让它如此强大和适用的原因所在。

BERT 利用大量数据进行预处理,用户可以直接将其应用在自己相对较小的数据集上。BERT 有上下文嵌入,性能会很不错。BERT 是开源的,用户可以直接下载并使用。它的应用范围如此之广,这就是为什么说 BERT 彻底改变了 NLP。

谷歌的研究人员,也是 BERT 的最初创造者,计划利用它来理解谷歌搜索,并提高谷歌自动问答服务的准确性。后来人们发现,BERT 的用处不仅仅只局限于谷歌搜索。BERT 有望改善计算机语言学的关键领域,包括聊天机器人、自动问答、总结和文本情感分析。自一年多前 BERT 的发布以来,其论文 的引用已超过 8,500 次,其广泛实用性不难看出。此外,自 BERT 发表后,最大的国际 NLP 会议 Association for Computational Linguistics(ACL)的投稿量也翻了一番,从 2018 年的 1544 篇直接增到 2019 年的 2905 篇。

BERT 将继续为 NLP 领域带来革命性的变化,它为小型数据库中各种类型的任务提供实现高性能的机会。

延伸阅读:

Devlin et al. 原论文:https://arxiv.org/pdf/1810.04805.pdf

ELMo,使用上下文嵌入的类似语言模型:https://arxiv.org/pdf/1802.05365.pdf

原文链接:

https://towardsdatascience.com/bert-why-its-been-revolutionizing-nlp-5d1bcae76a13

未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)云脑研究计划,构建互联网(城市)云脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。

  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/486868.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Mac idea中git igenore设置

转载于:https://www.cnblogs.com/hoge66/p/8406290.html

一文看懂BATH新基建:5G是基础,AI是内核

文章原载于 视觉中国“新基建”政策升温,“竞标赛”将启。“新基建”这一概念最早提出是在2018年底的中央经济工作会议上,会议指出要“加快5G商用步伐,加强人工智能、工业互联网、物联网等新型基础设施建设”,“新基建”概念由此…

蒲慕明:对科学哲学的一些看法

来源 | 中国科学报作者 | 蒲慕明9月24日上午,“中国科学院哲学研究所揭牌仪式暨科学与哲学前沿问题研讨会”在中国科学院大学玉泉路校区举行。揭牌仪式上,中科院院士、中科院脑科学与智能技术卓越创新中心(神经科学研究所)学术主任…

include动作与include指令的区别

转载于:https://www.cnblogs.com/olddriver123/p/8413098.html

【创新应用】未来10年,这些黑科技必将颠覆我们的生活

来源:智能研究院从无人驾驶汽车到机器人工人,在我们熟悉所有这一切之前,未来正迎面走来。根据世界经济论坛全球议程理事会关于《未来软件与社会》的一份报告,到2025年前,很多新兴技术将会达到其临界点。该理事会调查走…

stm32f10x单片机进阶--spi使用

使用SPI与外部flash(MX25L6406EM21)IC通信 连接方式如上图所示,MCU通过SPI2与外部flash芯片进行相连接。 MCU spi2初始化定义SPI2 中所使用的SPI 端口号 spi2中 通信功能初始化 读数据与写数据 指令说明查看flash芯片的datasheet,mx25芯片支持按照页来写…

怎样才算世界一流大学

来源:图灵人工智能本文摘编自石毓智著《斯坦福的创新力:来自世界一流大学的启示》之放眼欧美部分,内容有删减,由安静编辑。世界一流大学大都历史悠久,动辄都有几百年的历史。在这个家族中,斯坦福是个年轻的…

2020诺奖预测出炉!一位华人学者入选

图片来源:nobelprize.org文章来源:科睿唯安(Clarivate Analytics)、科研圈9月23日,拥有Web of Science、InCites等著名论文及期刊索引平台的科睿唯安公司(Clarivate Analytics)宣布了2020年“引…

java的oauth2.0_[转]Java的oauth2.0 服务端与客户端的实现

oauth原理简述oauth本身不是技术,而是一项资源授权协议,重点是协议!Apache基金会提供了针对Java的oauth封装。我们做Java web项目想要实现oauth协议进行资源授权访问,直接使用该封装就可以。image.png整个开发流程简述一下&#x…

数学突破奖:告诉你一个真实的数学研究

文章来源:科学松鼠会科学是目前人类探知客观世界最好的方式。尽管投入科学不能一蹴而就地得到切实有用的成果,但长远来看却是技术发展最好的动力源。与技术开发不同,对科学的投入更像是公益活动,因为科学研究得到的成果属于全人类…

重磅!“全脑介观神经联接图谱”大科学计划中国工作组成立!

来源:上海科技9月27日下午,“全脑介观神经联接图谱”大科学计划启动前期工作座谈会在上海市召开,本次会议明确了该计划的推进路径,宣布了中国工作组的成立,并就该计划的具体实施思路和举措进行研讨。座谈会上&#xff…

算法训练 Pollution Solution(计算几何)

问题描述作为水污染管理部门的一名雇员,你需要监控那些被有意无意倒入河流、湖泊和海洋的污染物。你的其中一项工作就是估计污染物对不同的水生态系统(珊瑚礁、产卵地等等)造成的影响。你计算所使用的模型已经在图1中被说明。海岸线&#xff…

MEMS传感器前景光明,国内产业如何创新破局

来源:MEMS当前,在行业技术不断发展和成熟的加持下,物联网已经成为世界新一轮科技革命和产业变革的重要驱动力。顺应着万物互联时代的到来,作为物联网先行技术、感知层的代表——传感器的市场需求急剧攀升,所扮演的角色…

清华大学教授:唐杰——深度分析:人工智能的下个十年

来源:图灵人工智能唐杰教授从人工智能发展的历史开始,深入分析人工智能近十年的发展,阐述了人工智能在感知方面取得的重要成果,尤其提到算法是这个感知时代最重要、最具代表性的内容。重点讲解了 BERT、ALBERT、MoCo2 等取得快速进…

Solr 访问 403 错误

把 Solr 基础环境搭建好后访问发现会出现 403 错误: 解决方法: 找到自己 Tomcat 目录下的 solr ,找到 ...\solr\WEB-INF\web.xml,然后把 169 - 183行注释,然后重启服务再次访问就 OK 啦。 访问成功界面: 转…

java数组的四个要素_Java零基础系列教程04Java数组

配套视频教程问题Java考试结束后,老师给张浩分配了一项任务,让他计算全班(30人)的平均分int stu1 95;int stu2 89;int stu3 79;int stu4 64;int stu5 76;int stu6 88;……avg (stu1stu2stu3stu4stu5…stu30)/30;数组数组是一个变量,存…

多页面webpack配置

工程结构如下 dev-serverconst config require(../config); const express require(express); const path require(path); const fs require(fs); // const faviconrequire(serve-favicon); const exec require(child_process).exec; process.env.NODE_ENV config.dev.e…

深度 | 量子计算技术的研究现状与未来

来源:本源量子导读1900年 Max Planck 提出“量子”概念,宣告了“量子”时代的诞生。科学家发现,微观粒子有着与宏观世界的物理客体完全不同的特性。宏观世界的物理客体,要么是粒子,要么是波动,它们遵从经典…

exsist什么意思_exist什么意思_通达信EXIST什么意思

matlab中的exist是什么意思exist用来判断变量或函数是否存在: exist Check if variables or functions are defined.exist(A) returns:0 if A does not exist1 if A is a variable in the workspace2 if A is an M-file on MATLABs search path. It also returns …

拥有“上帝视角”是怎样的体验?高分多模卫星首批影像成果发布

本文转载自“中国的航天”,原标题《拥有“上帝视角”是怎样的体验?高分多模卫星首批影像成果发布》,作者 | 杨璐9月29日,国家航天局发布了高分辨率多模综合成像卫星(以下简称“高分多模卫星”)首批20余幅亚…