Facebook AI mBART:巴别塔的硅解

2018年,谷歌发布了BERT(来自transformers的双向编码器表示),这是一种预训练的语言模型,在一系列自然语言处理(NLP)任务中对SOTA结果进行评分,并彻底改变了研究领域。类似的基于变压器的模型,如Open AI的GPT-2和百度的ERNIE也紧随其后。2019年10月,Facebook AI推出了BART,这是一种新的文本生成和理解预训练模型,使用双向和自回归方法。

现在,Facebook AI研究人员通过引入mBART进一步开发了BART模型,他们说这是第一种方法,通过对多种语言的全文进行去噪以进行机器翻译,从而预训练完整的序列到序列模型。

机器翻译可以简要描述为自动将一种语言的文本转换为另一种语言。对于大多数当前的机器翻译方法,只能对某些模型组件进行预训练,例如编码器和解码器。功能也很有限,因为大多数模型只能重建部分文本或只关注英语语料库。Facebook AI研究小组提出的新方法显示,由于添加了预训练的自回归模型,跨多种语言的翻译性能显着提高。

对于任何预训练的模型,“预训练”过程的质量至关重要。Facebook研究人员使用了从25种语言的通用爬行语料库(CC25)中提取的数据集作为子集,并根据CC25中每种语言的百分比进行了上/下采样。然后,使用句子片段模型(SPM)对文本语料库进行标记化,该模型实现了子单词单元,并扩展了行语句的直接训练。

在不同的语言集上预训练了具有12个编码器层和12个解码器层的BART模型。最终的模型被命名为mBARTNum,其中“Num”表示用于训练的语言数量;以及Random,这是一个在没有预训练的情况下随机初始化的基线模型。

2023-08-20T04:47:12.png

然后,通过将源语言输入编码器并解码目标语言,对这些预训练模型在24对公开可用的并行语料库上分别进行微调。模型的机器翻译质量是根据微调的BLEU评分(双语评估替补)进行评估的,该评分是通过将句子级机器翻译结果与一组人工参考翻译进行比较来计算的。

2023-08-20T04:47:57.png

结果肯定是有希望的,因为mBART25模型的表现明显优于随机模型。一个有趣的观察结果是,当用于微调的数据集超过2500万个并行句子时,这会“损害”模型的性能。研究人员怀疑,监督训练可能会“洗掉”预训练的好处。

2023-08-20T04:49:13.png

除了直接BLEU测试外,研究人员还通过计算回译(将目标语言翻译回源语言)的BLEU分数来评估模型的翻译能力。这些结果也提供了信息,因为BLEU分数显示整个回译过程中句子翻译质量有所提高。

与现有型号相比,新的 mBART 模型具有许多优势。在预训练步骤中,mBART 使用所有可能的语言进行训练,这提供了一组参数,可以针对任何训练形式的任何未来语言对进行微调,包括有监督和无监督。预训练步骤还减少了未来的训练和微调步骤成本——尽管预训练步骤本身很昂贵。

在未来的工作中,研究人员计划扩大语言库,并通过合并更多语言的训练数据集来进行大规模的预训练。

论文《神经机器翻译的多语言去噪预训练》发表在arXiv上。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/45718.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Tomcat 一次请求的生命周期

在使用 Tomcat 的时候,我们只需要在 Servlet 实现类中写我们的业务逻辑代码即可,不需要管 Socket 连接、协议处理要怎么实现,因为这部分作为不经常变动的部分,被封装到了 Tomcat 中,程序员只需要引入 Tomcat 中即可&am…

免费开源服务器资源监控系统grafana+prometheus+node_exporter

有项目做测试的时候需要查询服务器资源利用情况,自己又没写相应的模块,此时就需要一套好用的资源监控系统,,咨询了运维人员给推荐了一套,装完后真的很好用。 就是grafanaprometheusnode_exporter(linux&am…

三、Kafka生产者

目录 3.1 生产者消息发送流程3.1.1 发送原理 3.2 异步发送 API3.3 同步发送数据3.4 生产者分区3.4.1 kafka分区的好处3.4.2 生产者发送消息的分区策略3.4.3 自定义分区器 3.5 生产者如何提高吞吐量3.6 数据可靠性 3.1 生产者消息发送流程 3.1.1 发送原理 3.2 异步发送 API 3…

30.Netty源码服务端启动主要流程

highlight: arduino-light 服务端启动主要流程 •创建 selector •创建 server socket channel •初始化 server socket channel •给 server socket channel 从 boss group 中选择一个 NioEventLoop •将 server socket channel 注册到选择的 NioEventLoop 的 selector •…

Ubuntu20.04安装Nvidia显卡驱动教程

1、禁用nouveau 1、创建文件,如果没有下载vim编辑器,将vim换成gedit即可 $ sudo vim /etc/modprobe.d/blacklist-nouveau.conf 2、在文件中插入以下内容,将nouveau加入黑名单,默认不开启 blacklist nouveau options nouveau m…

计算机技术与软件专业技术资格(水平)考试----系统架构设计师

【原文链接】计算机技术与软件专业技术资格(水平)考试----系统架构设计师 考试简介 计算机软件资格考试是由国家人力资源和社会保障部、工业和信息化部领导下的国家级考试。计算机软件资格考试既是职业资格考试,又是职称资格考试。考试合格…

在线HmacSHA256加密工具--在线获取哈希值又称摘要

具体请前往: 在线计算HmacSha256工具

unity 之 Input.GetMouseButtonDown 的使用

文章目录 Input.GetMouseButtonDown Input.GetMouseButtonDown 当涉及到处理鼠标输入的时候,Input.GetMouseButtonDown 是一个常用的函数。它可以用来检测鼠标按键是否在特定帧被按下。下面我会详细介绍这个函数,并举两个例子说明如何使用它。 函数签名…

C语言——通讯录详解(文件版)

文件版通讯录 前言:一、保存通讯录二、读取通讯录2.1 通讯录初始化2.2 将文件的信息加载到通讯录 三、代码展示3.1通讯录的声明和定义(contct.h)3.2通讯录函数的实现(contact.c)3.2 通讯录的测试(test.c) 前言: 我们已经掌握了通…

Oracle19c-补丁升级报错合集(一)

前言: 本文主要介绍Oracle19c补丁升级遇到的问题,涉及安装补丁prepatch步骤,apply应用报错以及datapatch -verbose数据字典更新报错 问题一: 在执行补丁rootcrs.sh -prepatch操作时,发生执行检查命令cluutil -chkshare报错 CLSRSC-180: An …

记录首次面试2023-08-18

人生第一次面试,大概一个小时左右。没有问我C的,上来一个数据库事务,虽然没有复习,但是还是能够记住一些,主要问的一些事务的隔离级别,以及都有什么作用,我是举例回答的,客户端A和客…

14.pod控制器

文章目录 pod控制器概述有状态和无状态DeploymentDaemonSetSatefulSet配置 JobCronJob总结 pod控制器 概述 Pod控制器及其功用 Pod控制器,又称之为工作负载(workload),是用于实现管理pod的中间层,确保pod资源符合预期…

设计模式笔记

工厂模式: 1.Simple Factory Pattern : 是指由一个工厂对象决定创建出哪一种产品类的实例,简单工厂是产品的工厂,工厂类负责创建的对象较少,客户端需要传入工厂类的参数,对于如何创建对象的逻辑不关心。 缺点&#xf…

使用 Node.js 生成优化的图像格式

使用 Node.js 生成优化的图像格式 图像是任何 Web 应用程序的重要组成部分,但如果优化不当,它们也可能成为性能问题的主要根源。在本文中,我们将介绍如何使用 Node.js 自动生成优化的图像格式,并以最适合用户浏览器的格式显示它们…

Eureka:服务注册-信息配置-自我保护机制

首先在提供者服务下&#xff0c;添加一个依赖 <!-- Eureka --><dependency><groupId>org.springframework.cloud</groupId><artifactId>spring-cloud-starter-eureka</artifactId><version>1.4.6.RELEASE</version><…

科大讯飞星火模型申请与chatgpt 3.5模型以及new bing的对比

科大讯飞星火模型 申请科大讯飞星火认知大模型账号科大讯飞星火认知大模型使用1.界面介绍2. 在编程能力上与chatgpt 3.5对比科大讯飞星火模型chatgpt 3.5模型 3. 在图片生成能力上与new bing对比 总结 申请科大讯飞星火认知大模型账号 注册网址&#xff1a; 科大讯飞星火认知大…

回归预测 | MATLAB实现BO-SVM贝叶斯优化支持向量机多输入单输出回归预测(多指标,多图)

回归预测 | MATLAB实现BO-SVM贝叶斯优化支持向量机多输入单输出回归预测&#xff08;多指标&#xff0c;多图&#xff09; 目录 回归预测 | MATLAB实现BO-SVM贝叶斯优化支持向量机多输入单输出回归预测&#xff08;多指标&#xff0c;多图&#xff09;效果一览基本介绍程序设计…

22-组件通信

一. 什么是组件通信 组件通信&#xff0c;就是指 组件与组件 之间的数据传递 1. 组件的数据是独立的&#xff0c;无法直接访问其他组件的数据。 2. 想用其他组件的数据 -> 组件通信 二. 不同的组件关系 和 组件通信方案分类 组件关系分类: 1. 父子关系 2. 非父子关系 组件…

基于web的旅游管理系统/旅游网站的设计与实现

摘要 随着计算机技术&#xff0c;网络技术的迅猛发展&#xff0c;Internet 的不断普及&#xff0c;网络在各个领域里发挥了越来越重要的作用。特别是随着近年人民生活水平不断提高&#xff0c;在线旅游给景区商家的业务带来了更大的发展机遇。 在经济快速发展的带动下&#xff…

ICLR2020 Query2Box:基于BOX嵌入的向量空间知识推理8.15+8.16+8.17+8.18

Query2Box&#xff1a;基于BOX嵌入的向量空间知识推理 摘要介绍相关工作Query2Box&#xff1a;向量空间中KG的逻辑推理知识图谱与合取查询基于box嵌入的实体集推理Box嵌入源节点的初始box集合投影运算符几何相交运算符实体到box的距离训练目标使用析取范式处理析取向DNF转换聚合…