论文浅尝 | 面向自动问题生成的跨语言训练

论文笔记整理:谭亦鸣,东南大学博士生,研究方向为跨语言知识图谱问答。


640?wx_fmt=png

来源:ACL 2019

链接:https://128.84.21.199/pdf/1906.02525.pdf

 

动机

现有问题生成方法需要大量的“文本-问题”有标注数据对作为训练数据集,对于小语种语言(或缺少有标注数据的语言),有标注数据的缺少是无法实现高质量问题生成的主要原因。从上述因素出发,作者的动机是:利用已有大规模标注数据集(例如英文问题生成数据集,文中描述为 secondary language),用于提升小语种(文中称为 primary language)问题生成模型的性能。

 

贡献

1.  提出了一种利用大规模 secondary language 数据提升 primary language问题生成的模型

2.   验证上述模型在印度语与中文问题生成的性能.

3. 使用上述模型构建了“文本-问题”形式的印度语问题生成数据集,命名为HiQuAD.

 

方法

基本概述:

1.    使用无监督模型,将单语primary与secondary文本训练编码到一个共享潜在空间中.

2.    基于上述编码结果,使用大规模 secondary language的问题生成数据以及小规模primary language问题生成数据,用于训练一个有监督模型(Seq2Seq),从而提升primary language的问题生成.

640?wx_fmt=png

图1问题生成模型框架

模型概述(对照方法基本概述):

模型框架由(左→右)编码-解码两个主要层次构成(原文描述为两个编码器和两个解码器构成):

编码层包含两个子层:

1.    第一层为独立的两个单语编码器,分别用于primary(参数下标为 pri)及secondary(参数下标为 sec) language的初编码,W_E/W_D分别表示编码/解码的权重参数;

2.    第二层为融合编码器(两种语言共享编码权重参数),用于将primary及secondary language的初编码结果融合到共享编码空间中;

解码层也包含两个子层:

1.  第三层共享双语权重参数的解码器;

2.  第四层为分别用于primary及secondary language的单语解码器;

 

方法细节说明

1.    过程细节:

无监督编码过程(作者称为无监督预训练)算法如下图所示:

640?wx_fmt=png

      其中,x_p/x_s 分别表示 primary/secondary 对应的句子,算法包含三个步骤(三个步骤的目的均是通过训练调整模型 W_E/W_D 参数):

1) 训练编码器,用于将带有噪声的640?wx_fmt=png 重构为 x_p/x_s(共享编码器的特性);

2) 使用关联的编码-解码器将 x_p/x_s 翻译为640?wx_fmt=png

3) 利用步骤2中得到的译文结果 640?wx_fmt=png 参与训练新的翻译模型;x_p/x_s 将用于下一步的有监督问题生成算法;

 

问题生成过程算法如下图所示:

 640?wx_fmt=png

1) 使用预训练部分得到的权重参数作为问题生成模型的初始参数

2) 使用 primary/secondary 数据分别训练对应语言的生成模型(通过 secondary 语言的 QG 训练过程对共享编码/解码的权重参数进行微调,从而提升 primary 语言的 QG 性能)

 

2.    技术细节:

1) 本文使用的编码/解码器模型基于 Transformer 模型(作者表示相对RNN编码模型,在翻译任务中,Transformer 模型效果更好),不同的是,作者将位置信息也加入编码中,并参照双向 RNN 的做法,从两个序列输入方向分别对文本进行编码处理。

2) 去噪编码(预训练算法策略)采用 ‘UNSUPERVISED NEURALMACHINE TRANSLATION’一文类似的策略(如下图所示),通过共享编码,而后单语解码,可以实现对单语文本的重构(去噪)。与他们不同的是,本文作者在共享编码之前先对两种语言单独进行初编码,其次是作者使用 Transformer 替换 RNN 编码/解码。

640?wx_fmt=png

3) 在训练问题生成模型时,所使用的词表利用BPE方法做子字化(subword unit)处理,使词表的覆盖能力更强,减少OOV情况的同时缩小词表规模(作者表示直接使用原始词表将出现内存不足的错误)

 

实验

数据说明:

HiQuAD 数据集说明

作者构建的HiQuAD包含6555个‘问题-答案’对,来自于1334个文本段落(原始来源为Dharampal Books),为了构建“文本-问题”对,对于给定的问题,作者首先从段落中选取答案中的首词,然后抽取出对应的整句。

其他实验使用到的数据集说明:

Primary:印度;Secondary:英语

IITB 印度语单语数据集:作者从中抽取了93000个句子作为实验用单语文本(用于预训练阶段)

IITB 印度语-英语平行语料:作者从中抽取了100000个句对用于对预训练结果进行微调,抽取规则确保每个句子长度大于10

 

Primary:中文;Secondary:英语

DuReader 中文单语数据集:规模为8000

News Commentary Dataset 中英平行语料:包含91000的中英平行语料

 

SQuAD英文问答数据集:包含70484规模的“文本-问题”对

 

实验方案:

增量模型说明

1.  Transformer:直接使用小规模问题生成训练集训练得到生成模型;

2. Transformer+pretraining:使用单语数据对编码解码模型进行预训练后,将得到权重参数作为问题生成模型的初始参数;

3.     CLQG:使用双语数据预训练/问题生成的 Transformer+ pretraining;

4. CLQG+parallel:预训练之后,使用平行语料对权重参数进行进一步微调的CLQG;

 

评价指标说明(均是机器翻译相关指标,得分越高代表系统性能越好)

1.    Bleu

2.    ROUGE-L

3.    METEOR

 

实验结果

640?wx_fmt=png

在印度语的问题生成实验中,CLQG+parallel 模型均取得了最优结果,但是在中文 QG 实验结果上,增量模型的效果并不突出,但整体上能够反映出英语语料对于中文问题生成能够带来提高。

 

分析

1. 利用资源丰富的语料+跨语言表示学习,能够帮助提升小规模语料的表示学习效果,但是,作者并没有验证在同等情况下,该方法对英语(大规模语料)编码效果的影响

2.  HiQuAD 语料的构建过程并不明确,从实验上看,小语种语言问题的生成依然需要小规模的 QG 标注语料参与训练,但是作者对于HiQuAD的构建过程仅描述了获得问题之后文本的获取方式。但问题本身的来源,是否使用了小规模的印度语QG标注数据等细节,未做说明

 


OpenKG

开放知识图谱(简称 OpenKG)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。

640?wx_fmt=jpeg

点击阅读原文,进入 OpenKG 博客。

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/479596.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

再见,Spark!Flink已成气候!

身为大数据工程师,你还在苦学Spark、Hadoop、Storm,却还没搞过Flink?醒醒吧!刚过去的2020双11,阿里在Flink实时计算技术的驱动下全程保持了“如丝般顺滑”,基于Flink的阿里巴巴实时计算平台简直强无敌。最恐…

Java线程池实现原理及其在美团业务中的实践

随着计算机行业的飞速发展,摩尔定律逐渐失效,多核CPU成为主流。使用多线程并行计算逐渐成为开发人员提升服务器性能的基本武器。J.U.C提供的线程池:ThreadPoolExecutor类,帮助开发人员管理线程并方便地执行并行任务。了解并合理使…

Zuul 简介和使用

Zuul背景Zuul的作用Zuul API网关Zuul请求过滤Zuul路由规则Zuul异常处理背景 通过之前的学习,我们知道注册中心Eureka,可以讲服务注册到该注册中心,Ribbon和Feign可以实现服务负载均衡地调用,Hystrix可以实现服务熔断,…

技术动态 | 知识图谱上的实体链接

本文转载自公众号:知识工场 1、什么是实体链接实体链接(entity linking)就是将一段文本中的某些字符串映射到知识库中对应的实体上。比如对于文本“郑雯出任复旦大学新闻学院副院长”,就应当将字符串“郑雯”、“复旦大学…

卖萌屋学术站开放注册啦!寻募种子用户,超多特权放出!

文:夕小瑶消失一个多月的小夕又突然出现啦!要问小夕最近业余时间在做什么,那就是跟小伙伴们开发学术站啦~(等...等再肝一版,小夕就继续给大家写文章(。 ́︿ ̀。)众所周知,卖萌屋学术…

LeetCode 11. 盛最多水的容器(双指针)

文章目录1. 题目信息2. 解题1. 题目信息 给定 n 个非负整数 a1,a2,…,an,每个数代表坐标中的一个点 (i, ai) 。 在坐标内画 n 条垂直线,垂直线 i 的两个端点分别为 (i, ai) 和 (i, 0)。 找出其中的两条线,…

WSDM Cup 2020检索排序评测任务第一名经验总结

1.背景 第13届“国际网络搜索与数据挖掘会议”(WSDM 2020)于2月3日在美国休斯敦召开,该会议由SIGIR、SIGKDD、SIGMOD和SIGWEB四个专委会共同协调筹办,在互联网搜索、数据挖掘领域享有很高学术声誉。本届会议论文录用率仅约15%,并且WSDM历来注…

ltp︱基于ltp的无监督信息抽取模块

ltp︱基于ltp的无监督信息抽取模块:https://zhuanlan.zhihu.com/p/44890664 无监督信息抽取较多都是使用哈工大的ltp作为底层框架。那么基于ltp其实有了非常多的小伙伴进行了尝试,笔者私自将其归纳为:事件抽取(三元组…

Eureka 简介和使用

Eureka 服务注册与发现服务注册与发现Eureka与Zookeeper的比较ZooKeeper保证CPEureka保证APEureka是什么?Eureka原理SpringBoot、Spring Cloud 和 Eureka 版本选择Eureka单机搭建搭建Eureka服务端搭建Eureka客户端的服务提供者搭建Eureka客户端的服务消费者Eureka集…

论文浅尝 | XQA:一个跨语言开放域问答数据集

论文笔记整理:刘晓臻,东南大学计算机科学与工程学院本科生。Citation: Liu, J., Lin, Y., Liu, Z., & Sun, M. (2019,July). XQA: A Cross-lingual Open-domain Question Answering Dataset. InProceedings of the 57th Conference of the Associati…

深度CTR预估模型中的特征自动组合机制演化简史

文 | 杨旭东源 | 知乎众所周知,深度学习在计算机视觉、语音识别、自然语言处理等领域最先取得突破并成为主流方法。但是,深度学习为什么是在这些领域而不是其他领域最先成功呢?我想一个原因就是图像、语音、文本数据在空间和时间上具有一定的…

LeetCode 94. 二叉树的中序遍历(中序遍历)

文章目录1. 题目信息2. 解题2.1 递归2.2 循环,必须掌握1. 题目信息 给定一个二叉树,返回它的中序 遍历。 示例:输入: [1,null,2,3]1\2/3输出: [1,3,2]进阶: 递归算法很简单,你可以通过迭代算法完成吗? 来源:力扣&am…

想进美团不知道选哪个技术岗位?这里有一份通关秘籍!

春暖花开,美团春招已经启动,针对校招和社招开放了几千个职位,其中很大部分都是技术岗位。 随着互联网的高速发展,技术岗位在不断地细分,比如软件开发不仅分为前端和后端,前端会分为Web、iOS和Android三个方…

哈工大LTP本地安装及python调用

原文链接:https://blog.csdn.net/yangfengling1023/article/details/84559848 LTP即哈工大语言技术平台云,是基于云计算技术的中文自然语言处理服务平台 在线使用的网址:https://www.ltp-cloud.com/ github网址:https://github.c…

Nginx 简介和使用

Nginx简介Nginx发展介绍Nginx作者正向代理和反向代理概念网站代理服务器查看Nginx环境搭建下载安装前准备安装启动检测Nginx是否启动关闭重启Nginx核心配置文件说明Nginx主要功能1、静态网站部署2、负载均衡负载均衡概述负载均衡实现方式Nginx负载均衡策略负载均衡其他配置3、静…

论文浅尝 | 将文本建模为关系图,用于联合实体和关系提取

论文笔记整理:余海阳,浙江大学硕士,研究方向为知识图谱、自然语言处理。链接:https://www.aclweb.org/anthology/P19-1136动机本文提出了一种利用图卷积网络(GCNs)联合学习命名实体和关系抽取的端到端抽取模…

LeetCode 144. 二叉树的前序遍历(前序遍历)

文章目录1. 题目信息2. 解题2.1 递归2.2 循环,必须掌握1. 题目信息 给定一个二叉树,返回它的 前序 遍历。 示例:输入: [1,null,2,3] 1\2/3 输出: [1,2,3]进阶: 递归算法很简单,你可以通过迭代算法完成吗? 来源:力扣…

设计模式在外卖营销业务中的实践

一、前言 随着美团外卖业务的不断迭代与发展,外卖用户数量也在高速地增长。在这个过程中,外卖营销发挥了“中流砥柱”的作用,因为用户的快速增长离不开高效的营销策略。而由于市场环境和业务环境的多变,营销策略往往是复杂多变的&…

RabbitMQ 简介和使用

RabbitMQ一、RabbitMQ概述1、什么是消息队列2、为什么要使用消息队列3、RabbitMQ特点二、RabbitMQ安装1、安装前准备1.1 依赖包安装1.2 安装Erlang2、安装3、常用命令3.1. 启动和关闭3.2. 插件管理3.3. 用户管理3.4. 权限管理3.5. vhost管理三、RabbitMQ消息发送和接收1、 Rabb…

Transformer哪家强?Google爸爸辨优良!

文:Zilong2017年Attention is all you need横空出世,Transformer横扫机器翻译,隔年诞生的BERT建立在层层堆叠的Transformer之上,凭借这个平平无奇的Attention点乘模型一举刷新了各种沉积许久的榜单,一夜间仿佛不懂Tran…