论文浅尝 - TACL2020 | TYDI QA：Google 发表一个多语言的问答语料库

论文笔记整理：吴林娟，天津大学硕士。

链接：

https://arxiv.org/ftp/arxiv/papers/2003/2003.05002.pdf

动机

具有挑战性、值得信赖的评估数据可以促进多语言模型的发展，为了鼓励对多语言问答技术的研究，作者提出了数据集TyDi QA，这是一个涵盖了 11 种不同类型语言和204K个问答对的问答语料库。其中的11种语言在类型上是多种多样的，作者期望在这个数据集上表现良好的模型，能推广运用到世界上的众多其他语言。

简介

问答系统给人们获取信息带来了极大的方便，现有的先进的问答系统主要都是通过了英文的数据集测试，但是很多能从问答系统中受益的人并不会英语。世界上的语言展现出惊人的语言现象，用以表达意义。《世界语言结构图集》按照192种类型特征对2600种语言进行了分类，其中包括词序(word order)、重叠(reduplication)、按照句法编码的语法含义、格标记(case marking)、复数系统、问题标记、相对化(relativization)等现象。如果想要构建能够准确地表示所有人类语言的模型，那么必须根据能够证明这种多样性的数据来评估这些模型。

本文数据构建的目标：

1.使研究工作朝着建立大约世界前100种语言的高质量问答系统的方向发展；

2.鼓励研究能够很好地跨越世界语言的语言现象和数据场景的模型。

作者描述了TYDI-QA语言的类型特征，并提供了从数据中提取的一些相关现象的隐藏示例，以使研究人员了解非英语文本中存在的挑战，然后在模型中去处理这些挑战。作者也提供了一个开源的基线模型和带有隐藏测试集的公共排行榜(https://ai.google.com/research/tydiqa)，用于跟踪社区的进展。

任务要求

TYDI QA提出了一个模型，其中包含一个问题以及一篇维基百科文章的内容，并要求它做出两个预测：

段落选择任务：给定文章中段落的列表，如果存在答案则返回的包含答案的段落索引，如果不存在此类段落，则返回空。
最小答案跨度任务：给定一篇文章的全文，返回答案的最小跨度的开始和结束字节索引；如果问题需要的答案是“是/否”，并且可以从文章中得出结论，则返回“是”或“否”；如果无法生成最小答案，则返回空。

数据集问答对的实例如下图：

数据收集程序

问题引出：只给人类标注员Wikipedia内容的一小部分去提出自己真正感兴趣问题，以及无法从文本中得到答案提示的问题。例如当人类标注员看到文本中写道“苹果是一种水果...”，可能会写下“史蒂夫·乔布斯死于什么疾病？”这样由好奇心激发出的问题。这使得标注员可以更自由地询问他们真正感兴趣的主题，包括提示文章中没有涉及的主题。
文章检索：通过对问题文本执行Google搜索，将Wikipedia文章与每个问题配对，仅限于每种语言的Wikipedia域，并选择排名最高的结果。为了启用将来的用例，文章文本是从每种语言的原子Wikipedia快照中提取的。
答案标注：最后，给注释者提供问题/文章对，并首先要求他们选择最佳段落答案（文章中包含答案的段落），否则表明不可能回答（或没有满足答案的单独的段落）。如果找到这样的段落，则注释者将被要求选择一个最小的答案：尽可能短的字符跨度，同时能形成令人满意的答案；理想情况下，这些词的长度为1-3个字，但在某些情况下可以覆盖句子的大部分内容（例如，对于“什么是原子？”这样的定义）。如果问题要求布尔回答，则注释者选择是或否。如果没有这样的最小答案，则注释者也指出这一点。

数据集没有使用翻译的方法，将其从英语扩充到其他的语言，一个是避免翻译带来的错误，还有就是防止通过翻译后每一个问题都有英语的影子，这可能会使迁移学习的方法收益增加。

数据描述

数据类型多样性

作者选择数据集中语言的主要标准是类型多样性-即它们使用不同的语言手段表达含义的程度，换句话说，作者希望选定的语言不仅数量多，还能代表许多语言家族。此外，作者选择了具有与建模相关的多种数据特征的语言。例如，某些语言可能只有很少的单语数据。有许多语言的并行翻译数据很少，并且几乎没有经济动机在不久的将来产生大量昂贵的并行数据。因为过于依赖高质量机器翻译的方法将无法在世界各地的语言中推广。因此，我们选择一些具有并行训练数据的语言（例如日语，阿拉伯语）和一些具有很少并行训练数据的语言（例如孟加拉语，斯瓦希里语）。尽管以这些语言收集数据涉及更大的困难，但作者希望它们的多样性将使研究人员能够更可靠地得出有关其模型在各种语言中的泛化程度的可靠结论。

数据统计

问答系统评估

系统评估方法

TYDI-QA任务的主要评估指标是F1，它是精确性和召回率的调和平均值，每一项都是通过语言中的示例计算出来的。然而，任务之间确实存在某些细微差别，其中主要时针对空处理的评估。首先，每个例子的分数在一种语言中计算平均值；然后对所有非英语语言进行平均，得到最终的F1分数。对英语的测量被视为调试的有用手段，而不是TYDI QA任务的目标，因为在现有的数据集中已经有大量的英语评估覆盖。

人类表现的评估

作为一个思维实验，考虑将评价框架定为“正确答案被接受为正确答案的可能性有多大？”

作者提出了一个有首选答案的游戏：目标是为用户提供他们喜欢的答案。如果注释者正确选择了这些首选答案，作者则希望多路注释数据包含围绕这些首选答案的峰值分布。然后，玩家的最佳策略是预测那些答案，这些答案既是用户首选的，就更可能出现在评估数据集中。作者希望有大量的人工注释者或经过良好优化的机器学习系统来学习这种分布，这将有助于人类表现评估的提升。

主要任务：与基准模型的结果比较

提供了使用最新发布的多语言BERT（mBERT）的基线的结果。与Alberti等设置类似，其中所有语言都在一个模型中共同训练（表5）。此外，由于基线还没有经过训练，作者包含了始终预测第一段通过的系统的结果，因为Wikipedia文章的第一段经常总结其最重要的事实。在所有语言中，我们都看到mBERT与较大的人类绩效估计之间存在较大差距。

我们可以比较各种语言的分数吗？抱歉不行。每种语言都有自己独特的问题集，维基百科内容的质量和数量各不相同，注释者的质量也不同，以及还存在其他变量。