论文浅尝 | 面向自动问题生成的跨语言训练

论文笔记整理：谭亦鸣，东南大学博士生，研究方向为跨语言知识图谱问答。

640?wx_fmt=png

来源：ACL 2019

链接：https://128.84.21.199/pdf/1906.02525.pdf

动机

现有问题生成方法需要大量的“文本-问题”有标注数据对作为训练数据集，对于小语种语言（或缺少有标注数据的语言），有标注数据的缺少是无法实现高质量问题生成的主要原因。从上述因素出发，作者的动机是：利用已有大规模标注数据集（例如英文问题生成数据集，文中描述为 secondary language），用于提升小语种（文中称为 primary language）问题生成模型的性能。

贡献

1. 提出了一种利用大规模 secondary language 数据提升 primary language问题生成的模型

2. 验证上述模型在印度语与中文问题生成的性能.

3. 使用上述模型构建了“文本-问题”形式的印度语问题生成数据集,命名为HiQuAD.

方法

基本概述：

1. 使用无监督模型，将单语primary与secondary文本训练编码到一个共享潜在空间中.

2. 基于上述编码结果，使用大规模 secondary language的问题生成数据以及小规模primary language问题生成数据，用于训练一个有监督模型（Seq2Seq），从而提升primary language的问题生成.

640?wx_fmt=png

图1问题生成模型框架

模型概述（对照方法基本概述）：

模型框架由（左→右）编码-解码两个主要层次构成（原文描述为两个编码器和两个解码器构成）：

编码层包含两个子层：

1. 第一层为独立的两个单语编码器，分别用于primary(参数下标为 pri)及secondary(参数下标为 sec) language的初编码，W_E/W_D分别表示编码/解码的权重参数；

2. 第二层为融合编码器（两种语言共享编码权重参数），用于将primary及secondary language的初编码结果融合到共享编码空间中；

解码层也包含两个子层：

1. 第三层共享双语权重参数的解码器；

2. 第四层为分别用于primary及secondary language的单语解码器；

方法细节说明

1. 过程细节：

无监督编码过程（作者称为无监督预训练）算法如下图所示：

640?wx_fmt=png

其中，x_p/x_s 分别表示 primary/secondary 对应的句子，算法包含三个步骤（三个步骤的目的均是通过训练调整模型 W_E/W_D 参数）：

1) 训练编码器，用于将带有噪声的 640?wx_fmt=png 重构为 x_p/x_s（共享编码器的特性）；

2) 使用关联的编码-解码器将 x_p/x_s 翻译为 640?wx_fmt=png ；

3) 利用步骤2中得到的译文结果 640?wx_fmt=png 参与训练新的翻译模型；x_p/x_s 将用于下一步的有监督问题生成算法；

问题生成过程算法如下图所示：

640?wx_fmt=png

1) 使用预训练部分得到的权重参数作为问题生成模型的初始参数

2) 使用 primary/secondary 数据分别训练对应语言的生成模型（通过 secondary 语言的 QG 训练过程对共享编码/解码的权重参数进行微调，从而提升 primary 语言的 QG 性能）

2. 技术细节：

1) 本文使用的编码/解码器模型基于 Transformer 模型（作者表示相对RNN编码模型，在翻译任务中，Transformer 模型效果更好），不同的是，作者将位置信息也加入编码中，并参照双向 RNN 的做法，从两个序列输入方向分别对文本进行编码处理。

2) 去噪编码（预训练算法策略）采用 ‘UNSUPERVISED NEURALMACHINE TRANSLATION’一文类似的策略（如下图所示），通过共享编码，而后单语解码，可以实现对单语文本的重构（去噪）。与他们不同的是，本文作者在共享编码之前先对两种语言单独进行初编码，其次是作者使用 Transformer 替换 RNN 编码/解码。

640?wx_fmt=png