语言五子棋无ai程序框图_微软多语言预训练模型T-ULRv2登顶XTREME排行榜

6213f0dc0fba36e8bac72097cfb3bbee.png
编者按:为进一步实现用 AI 赋能用户体验,微软正在不断拓展多语言模型的边界。近日,由微软图灵团队与微软亚洲研究院联合探索的最新跨语言研究成果——多语言预训练模型 T-ULRv2,登顶 XTREME 排行榜,T-ULRv2 可以在相同向量空间表示和理解94种语言,提升所有语言的产品体验。本文编译自微软亚洲研究院副院长周明和微软副总裁、杰出工程师 Saurabh Tiwary 共同发表的微软研究院博客文章 “Microsoft Turing Universal Language Representation model, T-ULRv2, tops XTREME leaderboard”。

近日,由微软图灵团队与微软亚洲研究院联合开发的图灵多语言预训练模型 T-ULRv2 荣膺 XTREME 公共排行榜冠军,该模型比之前最好的模型 VECO 有了3.5的平均分提升。在此次突破中,除了预训练的模型外,微软的研究员们还提出了一种基于稳定性训练的新型多语言微调技术 StableTune。入围本次排行榜的其他模型还包括:XLM-R、mBERT 和 XLM 等。此前的最好模型 FILTER 也是由微软团队提交的。

28eaab5c933357770e672ff0b7bd1d30.png

多语言预训练模型T-ULRv2:支持94种语言

长期以来,微软图灵团队坚信文本的语义表示是语言无关的。在2018年发表的论文 Towards Language Agnostic Universal Representations中(https://www.microsoft.com/en-us/research/publication/towards-language-agnostic-universal-representations/),微软的研究员们提出了一种方法,以无监督方式训练语言无关的语义表示。此方法可以让经过训练的模型在针对某一个语言加以微调后,立即应用于另一个语言。以往针对每个语言进行模型训练都要求具备该语言的标注数据,而此方法有效地解决了这一难题。无监督的预训练语言模型已成为所有 NLP 模型的基础,基于 Transformer 的模型则是所有此类创新的核心。

f5cfcf1c5f8e3eba860c09533b2c4b07.png

作为微软 AI at Scale(AI 规模化)研发的重要组成部分之一,图灵系列的 NLP 模型一直在为微软产品的下一代 AI 体验提供原动力。T-ULRv2 是跨语言研究的最新成果,它融合了微软亚洲研究院近期在 InfoXLM 论文(INFOXLM: An Information-Theoretic Framework for Cross-Lingual Language Model Pre-Training - Microsoft Research)中的创新,其所开发的多语言预训练模型可以用于94种语言的文本的自然语言理解任务。通过 T-ULR 可以将微软必应的智能问题解答服务扩展到所有受支持的语言和地区。而且这个模型还被用于将 Word 语义搜索功能扩展到英语之外的语言,并且实现对微软 Outlook 和微软 Teams 中“建议答复”功能地普遍支持。这些功能的体验将会很快与用户见面。

7d9adc809b22525f0e010b618b740b6a.png
由 T-ULR 驱动的西班牙文及阿拉伯文版微软必应智能问题解答示例

5bb5e39c366e140fefa906792ac3babd.png
由 T-ULR 驱动的法文版微软 Word 语义搜索示例

这些真实的产品场景对算法质量的要求极高,因此也为研究员们的 AI 模型提供了理想的测试平台。根据结果显示,T-ULR 在多语言 NLP 任务中的准确率和性能都达到了非常可观的效果。

XTREME基准数据集

多语言编码器的跨语言迁移能力评估 XTREME 基准涵盖了横跨12个语系的40种语言,其中包含的9项任务都需要对不同层级的语法或语义进行推理。XTREME 中的语言选择旨在最大程度地提高语言多样性、覆盖现有的任务范围,并考虑到训练数据的可用性。

XTREME 中包含的任务涵盖了包括语句文本分类、结构化预测、语句检索和跨语言问答等自然语言处理任务。因此,为了成功完成 XTREME 基准测试,模型必须学会可以跨语言迁移的表示。

有关基准测试和任务的完整说明,请参见《XTREME:A Massively Multilingual Multi-task Benchmark for Evaluating Cross-lingual Generalization》(https://arxiv.org/abs/2003.11080) 。

T-ULRv2预训练的“铁人三项”:MMLM、TLM和XLCo

T-ULRv2 采用的是24层的 Transformer 架构,参数总量多达5.5亿个。T-ULRv2 预训练要完成三项不同的任务:多语言掩码语言模型(MMLM)、翻译语言模型(TLM)和微软研究团队提出的跨语言对比学习(XLCo)。MMLM 任务(也称为完形填空任务)的目标是根据输入的不同语言信息预测出被遮蔽的字符。T-ULRv2 使用了来自网络的多语言数据语料库,该语料库由94种语言组成,用于 MMLM 任务训练。

与 MMLM 相似,TLM 任务也是预测被遮蔽的字符,但该预测是针对拼接在一起的的平行句对。例如,给定一对英语和法语的平行句子,模型可以通过观察被遮蔽英语字符周边的英语字符或者它的法语翻译版来预测这个被遮蔽的英语字符。它能够帮助模型“对齐”不同语言的表示。

f055c3560eaabb672446ce1fa40e73be.png
遮蔽语言建模(MLM)的跨语言预训练以及 TLM 任务(来源:XLM)

XLCo 任务则可以使用平行训练数据,其目的是让平行句子表示之间的互信息最大化。MMLM 和 TLM 的目标是使字符-序列互信息最大化,而 XLCo 的目标是序列级别的跨语言互信息最大化。对于 TLM 和 XLCo 任务,T-ULRv2 会用到含有14个语言对的平行数据。XLCo 的损失函数如下:

f60ce94bb4a67532917232043f57f1ef.png

随后,它将计入 MMLM 和 TLM 的损失,得出跨语言预训练的总体损失:

ec26b147f2e4547cb75a1d06fedf1442.png

有关 T-ULRv2 的更多信息,请参见论文《InfoXLM: An Information-Theoretic Framework for Cross-Lingual Language Model Pre-Training》(https://arxiv.org/abs/2007.07834) 。

构建定制化应用:T-ULRv2将发挥重要作用

在微软 Ignite 2020 大会上,微软宣布图灵模型将作为私人预览的一部分,用于构建定制化应用,而 T-ULRv2 也将成为该计划的一部分。目前,研究团队正在与微软 Azure 认知服务部门紧密合作,为当前及未来带有图灵模型的语言服务提供支持。微软 Azure 认知服务的现有客户将通过 API 自动享受这些升级服务。

AI体验普及化:以改善所有语言的产品体验为先

微软认为,全球化发展不仅仅是个研究课题,也是一项必须直面的挑战。目前 Windows 在全世界范围内被使用,微软 Office 和微软必应也已在200个地区使用,且提供了超过100个语言版本。微软的客户遍及全球每个角落,他们都在以各自的母语使用着微软的产品。当下,微软的研究员们正在积极地拓展多语言模型的边界,像类似于 T-ULRv2 这样无语言差异的表示便是拓展之路上的又一次突破。它将可以提升所有语言的产品体验,赋能所有用户,真正实现 AI 体验的普及化。


本账号为微软亚洲研究院的官方知乎账号。本账号立足于计算机领域,特别是人工智能相关的前沿研究,旨在为人工智能的相关研究提供范例,从专业的角度促进公众对人工智能的理解,并为研究人员提供讨论和参与的开放平台,从而共建计算机领域的未来。

微软亚洲研究院的每一位专家都是我们的智囊团,你在这个账号可以阅读到来自计算机科学领域各个不同方向的专家们的见解。请大家不要吝惜手里的“邀请”,让我们在分享中共同进步。

也欢迎大家关注我们的微博和微信 (ID:MSRAsia) 账号,了解更多我们的研究。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/567369.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

excel学习

1.高配筛选—切片器 (1)创建超级表 选中某个单元格,插入,表格。 (2)插入切片器 插入—切片器 (3)改变切片器样式 选中菜单栏切片器,按钮,选择横排 2.subtotal实现动态编号 3-counta 过滤筛选 103-counta 过滤筛选和隐藏

keil3如何放大字体_Word技巧之快速放大字体!快来GET新技能!

一般情况下我们都会选择用Word编辑文章,文章编辑完成之后我们通常会对文章进行排版。在排版的过程中如果我们需要将Word字体放大该怎么办呢?今天倾尘跟大家分享的就是办公小技巧:Word 里的字体如何无限放大?方法一:点击…

dlib简便下载方法

一、查看已安装Python版本 二、下载python对应版本的dlib.wlh文件 官方网上边是没有3.7版本往后的dlib,想要下载其它版本的dlib自己去找了,但是我这里只有3.8的需要下载的可以点这里 提取码:dlib 三、在dlib.wlh文件所在路径下,安…

stm32 web get 参数_BlackHat2020议题之Web缓存投毒

周末闲着没事就来学习下新的思路,文章很长,花了一天时间才码出来,所以,你懂我意思吧?对了,周末打算出去走走,所以就不更文了本文将会介绍Web缓存投毒的各种骚姿势以及利用链,并会搭配相应案例进行讲解&…

c3p0 服务启动获取连接超时_JDBC数据库连接池

连接池的本质是构建一个容器,容器是用来存创建好的线程,http连接、数据库连接、netty连接等各个连接池的使用大致分为三个部分1、首先是初始化连接池,根据设置相应的参数、连接池的大小、核心连接数等参数,初始化创建数据库、http…

python与数据处理_python数据处理:数据合并和Reshaping

本文资料来自于: Python for Data Analysis: Chapter5, 7, 12 文中实例查看地址:http://nbviewer.jupyter.org/github/RZAmber/for_blog/blob/master/learn_numpy.ipynb 1. Combing and Merging Data Sets 在pandas中,数据可以通过三种方式进…

使用详解_Log4j2使用详解

日志框架简单比较(slf4j、j.u.l、log4j、logback、log4j2 )slf4j:slf4j是对所有日志框架制定的一种规范、标准、接口,并不是一个框架的具体的实现,因为接口并不能独立使用,需要和具体的日志框架实现配合使用…

paddlehub安装及对口罩检测

1、安装 python -m pip install paddlepaddle -i https://mirror.baidu.com/pypi/simple pip install -i https://mirror.baidu.com/pypi/simple paddlehub 报错,解决方案: >pip install -i https://mirror.baidu.com/pypi/simple paddlehub --use…

语言专项精讲课程 赵海英_最全汇总:沪江日语课程体系指南

沪江日语课程可分为六大类,你可以根据自己的学习意愿快速定位。当然,也有课程涉及多个分类,请仔细查看一下不同课程的偏重,选择适合自己的课程。一、零基础直达 0-N1签约名师:同类课程人气王 签约课程;19节…

学习opencv3_如何高效学习计算机视觉?

计算机视觉是人工智能的一个热门方向,很多人想要入门,但是却找不到方向。对于初学者来说,最快的入门方法是边实践边学习,也就是要掌握计算机视觉的开发工具。但其实对初学者来说并不太友好,主要有几个原因:…

ora-03113 访问某条记录_用了Excel十几年,你居然不知道“记录单”?!可能错过一个亿……...

点击蓝字发送【2020】免费领 100图表模板!本文作者:竺兰本文审核:小爽本文编辑:竺兰作为一个 Excel 数据搬运工,我每天的工作就是不断地往表格中输入数据,苦恼啊。但同样作为一个「懂点 Excel」的我&#x…

python三维数组切片_【NumPy学习指南】day4 多维数组的切片和索引

ndarray支持在多维数组上的切片操作。为了方便起见,我们可以用一个省略号(...)来 表示遍历剩下的维度。 (1)举例来说,我们先用arange函数创建一个数组并改变其维度,使之变成一个三维数组&#x…

批量修改栏目名_Endnote中英文混排批量修改小技巧

来源:卓琳 赵一鸣 北医三院 临床流行病学和循证医学 如果参考文献量大,涉及多种类型和语言,手工附上参考文献非常低效,还是得借助文献管理软件。由于output style选择的不同,中文参考文献的书写格式有误,有…

python中值滤波去除椒盐噪声_Python实现图像去噪方式(中值去噪和均值去噪)

实现对图像进行简单的高斯去噪和椒盐去噪。 代码如下: import numpy as np from PIL import Image import matplotlib.pyplot as plt import random import scipy.misc import scipy.signal import scipy.ndimage from matplotlib.font_manager import FontProperti…

java 关注公众号没有调接口_深入理解Java继承、封装、多态的实现原理

点击关注上方“Java技术江湖”,设为“置顶或星标”,第一时间送达技术干货。作者:黄小斜文章来源:微信公众号【Java技术江湖】目录从JVM结构开始谈多态JVM 的结构Java 的方法调用方式常量池(constant pool)图 2. 常量池各表的关系方…

系统相机裁剪比例_如何正确设置相机:6个最常见的错误,你还在犯错吗?

你是否在摄影中出现这样的设置错误?查看相机的这6个设置,并按照以下自定义提示操作,以增强照片质量并提高专业摄影水平。1.白平衡绝大多数照片是在自动白平衡模式下拍摄的。这是一个简单的选择,在大多数情况下是合理的,但这不是1…

java 正则首位8或者9的8位数字_正则简单手机号和邮箱练习

正则表达式的组成规则在java中,正则表达式的编译是类java.util.regex.Pattern正则表达式的构造摘要1.字符x包括所有大写和小写字母、所有数字、所有标点符号和一些其他符号的普通字符。比如之前的例子可以将[1-9][0-9]{4,12}改成1[0-9]{4,12}或者a[0-9]{4,12}此时就…

inputstreamreader 编码不完整_素材编码对剪辑效率的影响

这次说说在项目的剪辑阶段关于编码的一些注意事项。压缩编码会拖慢剪辑速度大多数中低端摄像机都使用其于时间压缩的编码来进行录制,也称为Long GOP压缩。这种编码对于缩小文件体积很有用,但是计算机不得不耗费更多的性能来进行剪辑。简单来讲&#xff0…

django默认缓存是多大_Django之缓存 - osc_fd8vzgsi的个人空间 - OSCHINA - 中文开源技术交流社区...

一、缓存由于Django是动态网站,所有每次请求均会去数据进行相应的操作,当程序访问量大时,耗时必然会更加明显,最简单解决方式是使用:缓存,缓存将一个某个views的返回值保存至内存或者memcache中&#xff0c…

gitlab 安装gitlabrunner 无法连接tiller_谈一谈GitLab Runner是个什么东东?

概念我从官网搜了一下,GitLab Runner 是一个开源项目, 它用来运行你定制的任务(jobs)并把结果返回给 GitLab。 GitLab Runner 配合GitLab CI(GitLab 内置的持续集成服务) 协调完成任务。gitlab想要了解 GitLab Runner之前,我们先要知道或者说…