Chapter7-5_Multilingual BERT

文章目录

  • 1 什么是Multilingual BERT
  • 2 Zero-shot Reading Comprehension
  • 3 Cross-lingual Alignment
  • 4 How alignment happens

本文为李弘毅老师【Multilingual BERT】的课程笔记,课程视频youtube地址,点这里👈(需翻墙)。

下文中用到的图片均来自于李宏毅老师的PPT,若有侵权,必定删除。

文章索引:

上篇 - 7-4 來自獵人暗黑大陸的模型 GPT-3

下篇 - 7-6 Text Style Transfer

总目录

1 什么是Multilingual BERT

世界上的语言有几千种,如果我们需要某个语言的BERT预训练模型,就要重新train一个BERT吗?不用。Multilingual BERT就是说拿不同国家的语言按照chapter7-3中所述的方法在同一个BERT上去做预训练。Google训练过一个用104个国家的语言做训练集的BERT,有钱就是任性。
7-5-1

2 Zero-shot Reading Comprehension

那么,把这么多国家的语言放到同一个BERT中去训练,有什么用吗?可以做到每个语言train一个BERT做不到的事吗?有and可以!

Multi-BERT可以做到zero-shot相关的任务。比如我们有一组英文的QA训练数据(每条数据是一篇文章,一个问题和一个答案),然后用它在Multi-BERT上做fine-tune之后,可以在中文上做QA的任务!
7-5-2

那么它的效果如何呢?如下表所示,使用了SQuAD英文QA数据集和DRCD中文数据集。表中的第一行是QANet在没有pre-train的情况下,直接在中文QA数据集上训练,并在中文上测试,其F1-score是78.1;我们拿BERT在中文数据上预训练并在中文QA数据集上fine-tune,最后在中文上测试的F1-score是89.1,可见BERT和与预训练是是的效果大幅提升的关键;拿Multi-BERT在中文QA上fine-tune并在中文上测试,F1-score是88.7,这个还比只用中文预训练要差一些,不过差距不大;接下来就是重点了,我们拿Multi-BERT在英文QA上做fine-tune并在中文上测试,F1-score是78.8,这已经比QANet高了;最后一个是拿Multi-BERT在英文和中文QA上做fine-tune并在中文上测试,F1-score是90.1,这比第三个高,可见英文的确有一些辅助作用。人类的F1-score是93.3,已经很接近人类了。
7-5-3

当我们的手上只有英文的QA数据,却想做中文的QA时,Multi-BERT不失为一个比较好的选择。当然我们也可以选择先做一下翻译,然后就相当于有了中文的QA数据,再去训练。但这样的效果李老师测下来没有直接用Multi-BERT去fine-tune的效果好,因为翻译的模型也是有错误的。不过这样的对比涉及到的变数太多,说不好,说不好。

不过这种跨语言的学习,就很想人类的学习行为了,很令人兴奋!

google还出了一个专门用来看模型跨语言学习能力的比赛,叫做xtreme,就是在一种语言上去学习某个任务,然后在其余几十种语言上去测试。

3 Cross-lingual Alignment

Multi-Bert可以做到跨语言的零样本学习,是什么原因呢?很大的可能就是Multi-Bert有跨语言的对齐,就是在Multi-Bert输出的不同语言同一个意思的词的特征向量时,这些特征向量时很接近的。比如兔和rabbit就会很接近,鱼和fish就会很接近。
7-5-4

如何验证这一猜想?我们可以建立一个Mean Reciprocal Rank。首先,我们会选择一堆有对应关系的词出来,比如对比中英文的时候,就是有一个下图右上角所示的Bi-lingual Dictionary。然后我们会利用Multi-Bert计算每个词的特征向量(一词多义,取多个意思对应特征向量的平均),计算特征向量之间的余弦相似度,得到一个相似度矩阵。最后,我们会看每个英文单词对应的正确中文单词在所有中文单词中与该英文单词相似度的排名,分数就是排名的倒数,比如“year”对应"年",然后在"year"的这一行,“年"的相似度是最高的,那么排名就是1,分数就是1/1;又比如"month"对应"月”,然后在"month"这一行,"月"的相似度排第3,分数就是1/3。
7-5-5

我们把得到的scores取平均就得到了最终的Alignment的评价分数。
7-5-6

最终发现,Multi-Bert的夸语言的alignment结果的确不错。李老师也试了一下用Globe,Word2vev等一些旧方法去训练跨语言的表征,效果的确没有Multi-Bert好。

4 How alignment happens

那么Multi-Bert为什么可以完成跨语言的alignment呢?有两种经典的猜想。一种猜想是不同语言之间有一些相同的token,这些相同的token搭建了一个桥梁,让模型可以在不同语言间对齐。另一种猜想是,有一种神奇的语言X,这个X中又有中文的token,又有英文的token,搭建了一个桥梁,只要中文和X对齐,英文也和X对齐,中文和英文就对齐了。
7-5-7

有一篇论文就针对这种想法做了实验,发现这两种猜想都不正确。他们用英语和伪造的假英语(和英语完全不同的token)来进行训练,发现这两者之间有比较好的alignment,可见模型在做alignment的时候,不需要相同的token作为媒介。

说到这里,有一个奇怪的地方,就是在训练Bert的时候,输入和输出的句子是一样的,如果不同语言间的embedding是不独立的话,那输入英文为什么不会输出同样意思的中文呢?可见不同语言间的embedding是独立的,Multi-Bert是有语言信息的。
7-5-8

为了验证这一点,我们做了一个非常简单的尝试。我们把所有英文的embedding取平均,所有中文的embedding取平均,然后得到两者之间的差值向量,在做reconstruction之前,把这个差值给加上去,看看会发生什么。
7-5-9

我们发现,猜对了!如下图中的表格所示,如果输入一个英文句子,然后加上一倍的差值,就得到了表中α=1\alpha = 1α=1的结果,如果加上两倍的差值,就得到了α=2\alpha = 2α=2的结果,句子越来越中文了!虽然意思有点不太对劲,但是至少证明了我们的猜想。
7-5-10

这个发现有什么用吗?有!如果我们英文的任务上做downstream的finetune,然后在中文上测试时,把这个差值给加上,效果会有所提升!真有意思啊~!
7-5-11

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/470626.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

deepin tim(wine)无法安装_浅析国产操作系统深度deepin

经过两天的努力,终于实现了win10下跟deepin 的双系统,经过我实际操作,发现win7环境下装双系统还是有问题的。虽然deepin系统也能安装成功,但是win系统却是无法顺利启动,一直卡在系统初始界面无限循环。而更换win10之后…

三、PHP框架Laravel学习笔记——路由参数、重定向、视图

一.路由参数 我们已经学习了部分路由参数的功能,比如动态传递{id};那么,有时这个参数需要进行约束,我们可以使用正则来限定必须是数字; Route::get(task/read/{id}, TaskControllerread) ->where(id, …

Chapter7-6_Text Style Transfer

文章目录1 什么是Text Style Transfer2 Cycle GAN2.1 Gumbel-softmax2.2 Continuous Input for Discriminator2.3 Reinforcement Learning2.4 效果3 Star GAN4 Feature Disentangle5 Unsupervised Abstractive Summarization6 Unsupervised Translation7 Unsupervised Speech R…

Student学生管理系统

1.定义各个层 2.添加各个层之间的引用 DAL 层调用Model BLL层调用DAL和Model UI层调用BLL和Model层 Model层供各个层调用 3.根据数据库建立实体类,每张表对应一个实体类 4.在DAL层调用MyTool类和SQLhelper类,添加system.Configuration 引用 并编写app.config 在SqlHelper类调用…

一、PHP框架Laravel——入门和安装

一.版本化方案 Laravel 框架是一款简洁、优秀且优雅的 PHP 开发框架;Laravel 到底怎么读,由于不是真实的单词,导致争论较多目前已知:[lrəvel][lɑːrəvel][lɑːrvl]有这几种;Laravel 从 6.x 开始进入到…

iscsi没有可用于使用快速连接登陆的目标_【解密】5G商用在即 OPPO快速网络切换方法;高管宣布华为河图商标注册成功;小米折叠屏专利曝光 类似于摩托罗拉Razr...

1.【专利解密】5G商用在即 OPPO快速网络切换方法2.好消息!高管宣布华为河图商标注册成功3.小米折叠屏专利曝光 类似于摩托罗拉Razr4.索尼Xperia提交新专利 上下双升降结构1.【专利解密】5G商用在即 OPPO快速网络切换方法【嘉德点评】OPPO发明的网络切换专利&#xf…

搞懂DEtection TRanformer(DETR)

文章目录1 bipartite matching loss2 模型总体框架2.1 backbone2.2 transformer2.2.1 encoder2.2.2 decoder2.2.3 prediction heads3 模型效果参考文献本文描述了笔者在阅读了一些文献之后,对 End-to-end Object Detection with Transformers(DETR) 的理解。DETR是一…

四、PHP框架Laravel学习笔记——路由命名和分组

一.路由命名 给一个制定好的路由进行命名,可以生成 URL 地址或进行重定向; Route::get(task, TaskControllerindex)->name(task.index); 在控制器区域,使用助手函数 route()来获取路由生成的 URL 地址; //生成 ur…

echart 数据点可以加链接吗_地理可视化就这么简单、酷炫,蚂蚁金服AntV 空间数据可视化引擎 L72.0发布...

导读L7 是由蚂蚁金服 AntV 数据可视化团队推出的基于 WebGL 的开源大规模地理空间数据可视分析开发框架。L7 中的 L 代表 Location,7 代表世界七大洲,寓意能为全球位置数据提供可视分析的能力。L7 以图形符号学为理论基础,将抽象复杂的空间数…

论文阅读 - Large-scale weakly-supervised pre-training for video action recognition

文章目录1 概述2 数据的收集方式3 使用的模型4 预训练时的一系列问题4.1 预训练的数据是不是越多越好?4.2 用于预训练的模型是不是越大越好?4.3 预训练数据的标签种类和数量是不是越多越好?4.4 用于预训练的每个video有长有短,时长…

excel记账本模板_原来这才是老板最喜欢看的财务报表!这些模板送你,录入自动生成...

【原来这才是老板最喜欢看的财务报表!这些模板送你,录入自动生成】都说财务报表做好,会计下班会很早!财务报表做的妙,升职加薪少不了!会计每到下班拖后腿的就是要整理好各种报表然后发给领导,会…

五、PHP框架Laravel学习笔记——回退、当前路由、单行为

一.单行为控制器 之前的课程,我们简单的创建和定义了控制器,并继承了控制器基类;为何要继承基类?因为继承基类后,可以使用基类的方法,比如中间件等;继承基类后除了支持中间件快捷使…

Chapter7-7_Deep Learning for Coreference Resolution

文章目录1 什么是coreference resolution2 框架2.1 Mention Detection2.2 Mention Pair Detection2.3 End-to-End2.4 Span Representation2.5 Pratical Implementation2.6 Result3 应用本文为李弘毅老师【Deep Learning for Coreference Resolution】的课程笔记,课程…

pwn和逆向的区别_Pwn之简单patch

亲爱的,关注我吧9/27文章共计1389个词图片xue微有点多注意流量哦预计阅读7分钟来和我一起阅读吧1引言在攻防的时候不仅仅需要break,还需要fix将漏洞patch上。2工具 这里我使用的是keypatch这个ida脚本下载地址:https://github.com/keystone-engine/keypatch/blob/ma…

python n个list如何组成矩阵_通过学习在processing中操作图片,掌握python 列表操作...

这次的教学非常简单,只需要安装了python模式的processing就可以(安装教程见专栏目录)。我从网上找了一个比100*100稍微大一点的图片,你可以也找一个。然后我们就可以一起开始今天的学习啦~(请先阅读本专栏中的processi…

六、PHP框架Laravel学习笔记——响应设置和重定向

一.响应设置 路由和控制器处理完业务都会返回一个发送到浏览器的响应:return;比如字符串会直接输出,而数组则会输出 json 格式,本身是 Response 对象; return [1, 2, 3]; //输出 json 格式 return respo…

论文阅读 - TransNet and TransNet V2

文章目录1 概述2 模型结构简述2.1 TransNet2.2 TransNet V23 数据集的构建4 模型效果5 参考文献1 概述 有些时候,一段视频是由多段短视频拼接而成的。拼接可以是直接拼接(硬拼接,见图2),也可以是由一个转场过渡拼接&a…

工厂方法模式及php实现

工厂方法模式: 工厂方法模式(Factory Method Pattern)又称为工厂模式,也叫虚拟构造器(Virtual Constructor)模式或者多态工厂(Polymorphic Factory)模式,它属于类创建型模式。在工厂方法模式中,工厂父类负责定义创建产品对象的公共…

Chapter7-8_Deep Learning for Constituency Parsing

文章目录1 什么是Constituency Parsing2 解决方案2.1 Chart-based Approach2.2 Transition-based Approach2.3 Grammer as Foreign Language本文为李弘毅老师【Deep Learning for Constituency Parsing】的课程笔记,课程视频youtube地址,点这里&#x1f…

html插入flash代码_初学者必备Web开发APP,支持代码补全,一键插入代码,厉害了!...

新手学前端神器,HTML代码补全功能太牛了!讲过学习后端的许多优秀APP,这次来推荐一下前端用的软件。前端,包含了HTMLCSSJavaScript这一整套的流程,缺一不可。其实,市面上用来编写前端的优秀APP有很多&#x…