xx是一个类型 这在给定的上下文_BERT, ELMo, amp; GPT-2: 这些上下文相关的表示到底有多上下文化?...

f53cc35267dd85811ed5996b247daf57.png
作者:Kawin Ethayarajh
编译:ronghuaiyang (AI公园)

具有上下文信息的词表示到底有多大程度的上下文化?这里给出了定量的分析。

将上下文信息放到词嵌入中 — 就像BERT,ELMo和GPT-2 — 已经证明了是NLP的一个分水岭的想法了。使用具有上下文信息的词表示来替换静态词向量(例如word2vec),在每个NLP任务上都得到了非常显著的提升。

但是这些上下文化的表达到底有多大程度的上下文化呢?

想想“mouse”这个词。它有多种词义,一个指的是啮齿动物,另一个指的是设备。BERT是否有效地在每个词的意义上创造了一种“mouse”的表达形式?或者BERT创造了无数个“mouse”的形象,每一个都是和特定的上下文相关?

62341a5bcc1c88e6eb701cd9a0a8743e.png

在我们的EMNLP 2019论文“How Contextual are Contextualized Word Representations?”中,我们解决了这些问题,并得出了一些令人惊讶的结论:

  1. 在BERT、ELMo和GPT-2的所有层中,所有的词它们在嵌入空间中占据一个狭窄的锥,而不是分布在整个区域。
  2. 在这三种模型中,上层比下层产生更多特定于上下文的表示,然而,这些模型对单词的上下文环境非常不同。
  3. 如果一个单词的上下文化表示根本不是上下文化的,那么我们可以期望100%的差别可以通过静态嵌入来解释。相反,我们发现,平均而言,只有不到5%的差别可以用静态嵌入来解释。
  4. 我们可以为每个单词创建一种新的静态嵌入类型,方法是将上下文化表示的第一个主成分放在BERT的较低层中。通过这种方式创建的静态嵌入比GloVe和FastText在解决单词类比等基准测试上的表现更好。

回到我们的例子,这意味着BERT创建了与上下文高度相关的单词“mouse”的表示,而不是每个单词都有一个表示。任何“mouse”的静态嵌入都会对其上下文化表示的差异造成很小的影响。然而,如果我们选择的向量确实最大化了可解释的变化,我们将得到一个静态嵌入,这比GloVe或FastText提供的静态嵌入更好。

上下文化的度量

上下文化看起来是什么样的?考虑两个场景:

A panda dog runs.
A dog is trying to get bacon off its back.

e626b120022b3e6467a2564658e7534e.png

注意,这些度量都是针对给定模型的给定层计算的,因为每个层都有自己的表示空间。例如,单词‘dog’在BERT的第一层和第二层有不同的self-similarity值。

各项异性调整

当讨论上下文时,考虑嵌入的各向同性是很重要的。(即它们是否在各个方向均匀地分布)。

在下面的两个图中,SelfSim(’dog‘)=0.95。左边的图片显示,“dog”这个词没有很好的上下文化。它的表现形式在它出现的所有上下文中几乎都是相同的,而且表示空间的高各向同性表明0.95的self-similarity是非常高的。右边的图像则恰恰相反:因为任何两个单词的余弦相似度都超过了0.95,所以‘dog’的自相似度达到0.95就没什么了不起了。相对于其他单词,‘dog’会被认为是高度上下文化的!

e1ad18444505b367fc6238d4497f4fe8.png

为了调整各向异性,我们为每个测量值计算各向异性基线,并从相应的原始测量值中减去每个基线。但是有必要对各向异性进行调整吗?有!如下图所示,BERT和GPT-2的上层是极具各向异性的,这表明高的各向异性是上下文化过程的固有特征,或者至少是其结果:

e2cf2514933a3dbd35710a0ffcd7a347.png

特定上下文

一般来说,在更高的层中,上下文化的表示更特定于上下文。下图所示,自相似度的降低几乎是单调的。这类似于在NLP任务上训练的LSTMs的上层如何学习更多特定于任务的表示(Liu et al., 2019)。GPT-2是最具特定上下文化的,其最后一层中的表示几乎是与上下文相关程度最高的。

8713ccf58510637b50479d704b58a344.png

**自相似度最低的停止词比如包括“the”。(最特定于上下文表示的词)。**一个词出现在多种上下文中,而不是其固有的一词多义,是其上下文化表示变化的原因。这表明ELMo、BERT和GPT-2并不是简单地为每个词赋予一个表示,否则,就不会这么少的词意表示会有这么多的变化。

**特定上下文表示性在ELMo、BERT和GPT-2中表现得非常不同。**如下图所示,在ELMo中,相同句子中的单词在上层中更相似。在BERT中,同一句话的上层单词之间的相似性更大,但平均而言,它们之间的相似性比两个随机单词之间的相似性更大。相比之下,对于GPT-2,同一句话中的单词表示彼此之间的相似性并不比随机抽样的单词更大。这表明,BERT和GPT-2的上下文化比ELMo的更微妙,因为他们似乎认识到,出现在相同上下文中的单词不一定有相同的意思。

4bb21d3a86ef29cbdff6247bc2c43702.png

静态 vs. 上下文化

平均而言,在一个词的上下文化表示中,只有不到5%的差异可以用静态嵌入来解释。如果一个单词的上下文化表示完全与上下文无关,那么我们期望它们的第一个主成分能够解释100%的变化。相反,平均不到5%的变化可以被解释。这个5%的阈值代表了最佳情况,其中静态嵌入是第一个主成分。例如,没有理论保证GloVe向量与最大化可解释变化的静态嵌入相似。这表明,BERT、ELMo和GPT-2并不是简单地为每个词意义分配一个嵌入:否则,可解释的变化比例会高得多。

在许多静态嵌入基准上,BERT的低层上下文化表示的主成分表现优于GloVe和FastText。这个方法将之前的发现归结为一个逻辑结论:如果我们通过简单地使用上下文化表示的第一个主成分为每个单词创建一种新的静态嵌入类型,结果会怎样?事实证明,这种方法出奇地有效。如果我们使用来自底层BERT的表示,这些主成分嵌入在涉及语义相似、类比求解和概念分类的基准测试任务上胜过GloVe和FastText(见下表)。

bd878e9200b54906f6bbbe85bf044ce8.png

对于所有这三种模型,从低层创建的主成分嵌入比从高层创建的主成分嵌入更有效。那些使用GPT-2的人的表现明显比来自ELMo和BERT的人差。考虑到上层比下层更特定于上下文,考虑到GPT-2的表示更特定于上下文,这表明不太特定于上下文的表示的主成分对这些任务更有效。

总结

在ELMo、BERT和GPT-2中,上层比下层产生更多特定于上下文的表示。但是,这些模型对单词的上下文环境非常不同:在调整了各向异性之后,ELMo中相同句子中的单词之间的相似性最高,而GPT-2中几乎不存在。

平均而言,在一个词的上下文化表示中,只有不到5%的变化可以用静态嵌入来解释。因此,即使在最佳情况下,静态词嵌入也不能很好地替代上下文化的词。尽管如此,上下文化的表示可以用来创建更强大的静态嵌入类型:BERT的低层上下文化表示的主成分比GloVe和FastText要好得多!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/244661.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

不是有效的win32应用程序_杀毒软件有坑!三分之二的安卓杀毒软件的“主业”并不是杀毒...

更多全球网络安全资讯尽在E安全官网www.easyaq.com小编来报:奥地利杀毒测试机构AV-Comparatives研究发现,大约三分之二的安卓杀毒软件并没有合格的杀毒功能,它们都是披着羊皮的狼!据外媒报道,奥地利杀毒测试机构AV-Com…

phpfpm内存越来越高_硬件集成度越来越高 未来DIY玩法方向已定?

【PConline 杂谈】前一阵子,英特尔发布了他们家的黑科技处理器,代号为Lakefield。能称得上黑科技那肯定是有点东西的,这款处理器采用了3D封装工艺,将内存颗粒也封装进处理器里面。这样的话处理器、内存和显卡这些大件都集成在一块…

苹果6可以分屏吗_榨苹果汁可以加蜂蜜水吗?蜂蜜苹果汁的作用

榨苹果汁可以加蜂蜜水吗?蜂蜜苹果汁的功效鲜榨果汁是很多人都喜欢的饮品,现在生活水平都比较好了,大家也可以在家中自己榨果汁喝,苹果汁是很多人的第一选择,那榨苹果汁可以加蜂蜜水吗?榨苹果汁可以加蜂蜜水,苹果营养…

mysql5.5索引,MySQL--5索引选择原则

大家好我是安小生,这篇文章讲述索引的选择原则。1.explain分析语句。explain:通常是用于sql语句性能分析。举个栗子:explain select * from user where name "张三"我们来看一下explain 查询出来的字段都是什么?id:sel…

winform 鼠标 静止时间_赢得电竞的奥秘,你需要一块好鼠标垫

如今,电竞游戏成为很多PC用户喜爱的娱乐“运动”,这使得相关PC电竞外设流行起来,耳机、音箱、鼠标、鼠标垫都成为电竞用户追求的产品。然而对于职业选手、电竞玩家而言,除了一款性能出色的鼠标外,搭配一款合适的鼠标垫…

IAR在写结构体时不提示_智能物流装车系统的结构优化与改进

文|滇西应用技术大学管理学院鄢良国、姚敏、孙荷琴、杨晓滇西应用技术大学基础实验实训中心朱丹智能物流装车系统主要用于烟草生产基地和物流配送中心之间往返运输的自动化装车业务中。本文针对智能物流装车系统会损坏外层箱体的现象,对结构进行了具体分…

python模块管理工具,Python的包管理工具

Python的包管理工具python包管理工具python包管理工具简介distribute是setuptools的取代,pip是easy_install的取代。Distribute是对标准库disutils模块的增强,我们知道disutils主要是用来更加容易的打包和分发包,特别是对其他的包有依赖的包。…

循环机换变速箱油教程_水箱内全是油, 变速箱内全是水!看师傅怎么修...

点击↑汽修案例关注置顶,获得正时大全识别添加汽配大师微信车主到店说变速箱顿挫太厉害了,像这种行驶8万多公里的车,变速箱油是主要检查对象,先放掉变速箱油,结果放出的油已经看不出油原来的样子,水和油的混…

RequestBody获取前端数据_360视频云Web前端HEVC播放器实践剖析

360视频云前端团队围绕HEVC前端播放及解密实现了一套基于WebAssembly、WebWorker的通用模块化Web播放器,在LiveVideoStackCon2019深圳的演讲中360奇舞团Web前端技术经理胡尊杰对其架构设计、核心原理,具体痛点问题的解决方式进行了详细剖析。文 / 胡尊杰…

luci L大_油耗最低1.4L!开这四款车一个月都不用进加油站

如今人们对于纯电动车的接受程度在日益增加,但续航问题依旧没有完全解决,成为了许多人难以逾越的关卡。其实,插电式混动车型同样适合作为消费者的首选,其具备了纯电动车易上牌、环保节能的优势,同时还保留了传统燃油车…

为什么手机联系人里有permission_为什么有人在咖啡馆里不看手机不看电脑没有同伴,独自喝咖啡?...

通常,你是因为什么原因,在咖啡馆停留?聊天?谈事?工作?学习?如果你经常去咖啡馆,你也许不会发现,有这样一类人,他们一个人,坐在咖啡馆里&#xff0…

cad考试题库绘图题答案_证券从业资格考试证券市场基本法律法规题库答案

内容简介本题库是证券业从业人员资格考试科目《证券市场基本法律法规》的题库,包括历年真题和章节题库两个部分。具体如下:第一部分为历年真题。精选历年真题,每道题目均提供答案和详细的解析,练习和自测都适宜。通过该部分学习&a…

.net 将html写成的table 转换成excel_Python读取二进制,HTML,XML格式存储Excel

前言RPA设计器版本:2020.2Python读取三种不同存储格式Excel文件Excel文件的存储格式有多种,有我们平常公认的二进制格式,也有HTML格式,还有XML格式的等。目前,小编接触到RPA项目的Excel文件格式主要是上述说的三种格式…

航天金税 接口_用友凭证接口可以实现数据之间无缝对接和打通

用友凭证接口可以实现数据之间无缝对接和打通用友凭证接口支持数据源多样性:凭证接口可以支持多种数据源、多种系统做接口集成,其中以医院HIS系统、航天金税系统、OA系统、其他软件业务系统等已经成功对接并导入数据。可以支持sql、mysql、orecal、excel…

selinux= 为 disabled_「丁香园」五年没考过执医,就不要出来「为祸人间」了

如今,网上流传着一句话:「五年没考过执医,就不要出来为祸人间了」但事实上,有很多同学,并不是不适合这条路,而是不知道如何学习前段时间,20 年的执医考试分数出了。看到很多人在丁香论坛分享自己…

检测到目标url存在框架注入漏洞_HOST注入攻击剖析

关于网站的渗透测试可能师傅们都有自己一套思路,有个共同点就是目标网站基本属于全静态页面,几乎很少存在动态参数这时意味着客户端无法通过提交参数形式进行测试,理论上也规避掉了许多风险。既然无法从参数层面进行测试,那么考虑…

wpfdiagram 学习 教学_李倩、吴欣歆:新高考背景下高中语文教学的三个转变

新高考背景下高中语文教学的三个转变李倩 吴欣歆大量的实证研究指出,以中高考为代表的高利害型评价方式对教师教学具有显著的回冲效应。当考试与评价能够为学科学习带去更多富有价值的信息以及关于学习理念、学习策略的积极引领时,评价对教学的指挥棒作…

macos catalina 合盖 风扇狂转_防爆排风扇BFS-400叶轮直径400mm功率180W/220V转速1400rpm风量2400_...

防爆排风扇BFS-400叶轮直径400mm功率180W/220V转速1400rpm风量2400 一、防爆排风扇BFS-400叶轮直径400mm功率180W/220V转速1400rpm风量2400 风机概述隔爆型防爆排风扇(以下简称排风扇)其防爆性能按《爆炸性环境用防爆电气设备通用要求》《 爆炸性环境用防爆电气设备隔爆型电气设…

linux传输文件scp自动接密码,配置scp在Linux或Unix之间传输文件无需密码

如何配置scp文件传输实现scp在Linux或Unix之间传输文件,首先需要配置好scp,默认scp要使用密码的,通过以下配置可以不用输入密码,就完成Linux或Unix之间的文件传输假设有2台Linux, A server, B server(ip假设…

Excel表Ctrl+v和Ctrl shift+v有什么区别_Ctrl键与10个数字键,26个字母键的组合应用技巧解读...

键盘是一种必备的输入设备,其应用率最高的就是10个数字和26个字母。如果将这10个数字和26个字母与Ctrl键组合,并应用到Excel中,会是怎样的一种体验。一、Ctrl与数字键。1、Ctrl1:打开【设置单元格格式】对话框。方法:选…