论文浅尝 - TACL2020 | TYDI QA:Google 发表一个多语言的问答语料库

论文笔记整理:吴林娟,天津大学硕士。


链接:

https://arxiv.org/ftp/arxiv/papers/2003/2003.05002.pdf

动机

具有挑战性、值得信赖的评估数据可以促进多语言模型的发展,为了鼓励对多语言问答技术的研究,作者提出了数据集TyDi QA,这是一个涵盖了 11 种不同类型语言和204K个问答对的问答语料库。其中的11种语言在类型上是多种多样的,作者期望在这个数据集上表现良好的模型,能推广运用到世界上的众多其他语言。

简介

问答系统给人们获取信息带来了极大的方便,现有的先进的问答系统主要都是通过了英文的数据集测试,但是很多能从问答系统中受益的人并不会英语。世界上的语言展现出惊人的语言现象,用以表达意义。《世界语言结构图集》按照192种类型特征对2600种语言进行了分类,其中包括词序(word order)、重叠(reduplication)、按照句法编码的语法含义、格标记(case marking)、复数系统、问题标记、相对化(relativization)等现象。如果想要构建能够准确地表示所有人类语言的模型,那么必须根据能够证明这种多样性的数据来评估这些模型。

本文数据构建的目标:

1.使研究工作朝着建立大约世界前100种语言的高质量问答系统的方向发展;

2.鼓励研究能够很好地跨越世界语言的语言现象和数据场景的模型。

作者描述了TYDI-QA语言的类型特征,并提供了从数据中提取的一些相关现象的隐藏示例,以使研究人员了解非英语文本中存在的挑战,然后在模型中去处理这些挑战。作者也提供了一个开源的基线模型和带有隐藏测试集的公共排行榜(https://ai.google.com/research/tydiqa),用于跟踪社区的进展。

任务要求

TYDI QA提出了一个模型,其中包含一个问题以及一篇维基百科文章的内容,并要求它做出两个预测:

  • 段落选择任务:给定文章中段落的列表,如果存在答案则返回的包含答案的段落索引,如果不存在此类段落,则返回空。

  • 最小答案跨度任务:给定一篇文章的全文,返回答案的最小跨度的开始和结束字节索引;如果问题需要的答案是“是/否”,并且可以从文章中得出结论,则返回“是”或“否”;如果无法生成最小答案,则返回空。

数据集问答对的实例如下图:

数据收集程序

  • 问题引出:只给人类标注员Wikipedia内容的一小部分去提出自己真正感兴趣问题,以及无法从文本中得到答案提示的问题。例如当人类标注员看到文本中写道“苹果是一种水果...”,可能会写下“史蒂夫·乔布斯死于什么疾病?”这样由好奇心激发出的问题。这使得标注员可以更自由地询问他们真正感兴趣的主题,包括提示文章中没有涉及的主题。

  • 文章检索:通过对问题文本执行Google搜索,将Wikipedia文章与每个问题配对,仅限于每种语言的Wikipedia域,并选择排名最高的结果。为了启用将来的用例,文章文本是从每种语言的原子Wikipedia快照中提取的。

  • 答案标注:最后,给注释者提供问题/文章对,并首先要求他们选择最佳段落答案(文章中包含答案的段落),否则表明不可能回答(或没有满足答案的单独的段落)。如果找到这样的段落,则注释者将被要求选择一个最小的答案:尽可能短的字符跨度,同时能形成令人满意的答案;理想情况下,这些词的长度为1-3个字,但在某些情况下可以覆盖句子的大部分内容(例如,对于“什么是原子?”这样的定义)。如果问题要求布尔回答,则注释者选择是或否。如果没有这样的最小答案,则注释者也指出这一点。

数据集没有使用翻译的方法,将其从英语扩充到其他的语言,一个是避免翻译带来的错误,还有就是防止通过翻译后每一个问题都有英语的影子,这可能会使迁移学习的方法收益增加。

数据描述

数据类型多样性

作者选择数据集中语言的主要标准是类型多样性-即它们使用不同的语言手段表达含义的程度,换句话说,作者希望选定的语言不仅数量多,还能代表许多语言家族。此外,作者选择了具有与建模相关的多种数据特征的语言。例如,某些语言可能只有很少的单语数据。有许多语言的并行翻译数据很少,并且几乎没有经济动机在不久的将来产生大量昂贵的并行数据。因为过于依赖高质量机器翻译的方法将无法在世界各地的语言中推广。因此,我们选择一些具有并行训练数据的语言(例如日语,阿拉伯语)和一些具有很少并行训练数据的语言(例如孟加拉语,斯瓦希里语)。尽管以这些语言收集数据涉及更大的困难,但作者希望它们的多样性将使研究人员能够更可靠地得出有关其模型在各种语言中的泛化程度的可靠结论。

数据统计

问答系统评估

系统评估方法

TYDI-QA任务的主要评估指标是F1,它是精确性和召回率的调和平均值,每一项都是通过语言中的示例计算出来的。然而,任务之间确实存在某些细微差别,其中主要时针对空处理的评估。首先,每个例子的分数在一种语言中计算平均值;然后对所有非英语语言进行平均,得到最终的F1分数。对英语的测量被视为调试的有用手段,而不是TYDI QA任务的目标,因为在现有的数据集中已经有大量的英语评估覆盖。

人类表现的评估

作为一个思维实验,考虑将评价框架定为“正确答案被接受为正确答案的可能性有多大?”

作者提出了一个有首选答案的游戏:目标是为用户提供他们喜欢的答案。如果注释者正确选择了这些首选答案,作者则希望多路注释数据包含围绕这些首选答案的峰值分布。然后,玩家的最佳策略是预测那些答案,这些答案既是用户首选的,就更可能出现在评估数据集中。作者希望有大量的人工注释者或经过良好优化的机器学习系统来学习这种分布,这将有助于人类表现评估的提升。

主要任务:与基准模型的结果比较

提供了使用最新发布的多语言BERT(mBERT)的基线的结果。与Alberti等设置类似,其中所有语言都在一个模型中共同训练(表5)。此外,由于基线还没有经过训练,作者包含了始终预测第一段通过的系统的结果,因为Wikipedia文章的第一段经常总结其最重要的事实。在所有语言中,我们都看到mBERT与较大的人类绩效估计之间存在较大差距。

我们可以比较各种语言的分数吗?抱歉不行。每种语言都有自己独特的问题集,维基百科内容的质量和数量各不相同,注释者的质量也不同,以及还存在其他变量。

黄金段落:一个简化版的任务

在这个任务中,只提供了标准答案所在的段落而不是整个维基百科文章,并且社区了不可回答的问题,类似于MLQA和XQuAD,评估也参考类似XQuAD中的。台语和日语被删除了,因为语言中没有空格可能不利于一些现有的工具使用。

基于简化版任务的基线结果如表7。

总结及展望

作者预见了几个研究方向,这些数据将使研究者能够推动新的边界,包括:

  • 研究形态学和问答匹配之间的相互作用;

  • 评估迁移学习的有效性,无论是对于有或没有并行数据的语言;

  • 考虑到不同的数据场景和语言挑战,机器翻译在数据扩充和作为运行时组件的问答中的有用性;

  • 通过显式地不在所提供的语言的子集上进行训练来研究零资源QA。

最后作者写到,回答问题所需的内容常常没有用更多的其他语言写下来。对于这些语言,我们矛盾地面临着需要跨语言答案检索和翻译的前景,同时资源贫乏的语言也缺少了可信赖的翻译系统所需的并行数据。期待着研究界找到更多方法来提高多语言模型的质量。

 


 

OpenKG

开放知识图谱(简称 OpenKG)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。

点击阅读原文,进入 OpenKG 博客。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/479062.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

读博总结的总结:读博的那些事儿

文 | 胡津铭知乎本文已获作者授权,禁止二次转载我时常给同学们推荐各种我看过的优质读博总结与建议文章,今天有了些空,整理一下我看过的优质文章。排名不分先后,想到啥写啥。先推荐英文的资源好了,因为我最推荐的一篇文…

LeetCode 55. 跳跃游戏(贪心)

1. 题目 给定一个非负整数数组,你最初位于数组的第一个位置。 数组中的每个元素代表你在该位置可以跳跃的最大长度。 判断你是否能够到达最后一个位置。 示例 1:输入: [2,3,1,1,4] 输出: true 解释: 从位置 0 到 1 跳 1 步, 然后跳 3 步到达最后一个位置。 示例…

论文浅尝 - ICLR2020 | Abductive Commonsense Reasoning

论文笔记整理:毕祯,浙江大学硕士,研究方向:知识图谱、自然语言处理。链接:https://arxiv.org/pdf/1908.05739.pdf动机尽管长期以来人们一直认为归因是人们在自然语言界线之间进行解释和阅读的核心,但很少有…

【基本功】深入剖析Swift性能优化

简介 2014年,苹果公司在WWDC上发布Swift这一新的编程语言。经过几年的发展,Swift已经成为iOS开发语言的“中流砥柱”,Swift提供了非常灵活的高级别特性,例如协议、闭包、泛型等,并且Swift还进一步开发了强大的SIL&…

新年立个小目标!代码写得更规范!

知乎作者叶小飞:作为Oppo Reno2 超级夜景核心开发人员和奔驰San Jos Pilot落地工程师之一,我写代码基本尽可能地遵循Google Style. 在这里写几个自己的习惯Google Style里面几个常用的要点。自己的习惯动手写代码前尽量做到胸中有丘壑。现在这世界讲究格局&#xff…

手把手教你用Keras实现英文到中文机器翻译 seq2seq+LSTM

原文链接:https://blog.csdn.net/qq_44635691/article/details/106919244 该模型实现的是英文到中文的翻译,下图为了更好展示模型架构借用大佬的图(这里没有用到Embeddings): 本文完整代码:Github 目录 一、处理文本数据 1.获得翻译前后的句子…

LeetCode 45. 跳跃游戏 II(贪心/BFS,难)

文章目录1. 题目2. 解题2.1 贪心2.2 BFS1. 题目 给定一个非负整数数组,你最初位于数组的第一个位置。 数组中的每个元素代表你在该位置可以跳跃的最大长度。 你的目标是使用最少的跳跃次数到达数组的最后一个位置。 示例:输入: [2,3,1,1,4] 输出: 2 解释: 跳到最…

深度剖析开源分布式监控CAT

CAT(Central Application Tracking)是一个实时和接近全量的监控系统,它侧重于对Java应用的监控,基本接入了美团上海侧所有核心应用。目前在中间件(MVC、RPC、数据库、缓存等)框架中得到广泛应用&#xff0c…

论文浅尝 | ​ADRL:一个基于注意力机制的知识图谱深度强化学习框架

论文笔记整理:谭亦鸣,东南大学博士。来源:Knowledge-Based Systems 197 (2020) 105910链接:https://www.sciencedirect.com/science/article/abs/pii/S0957417419306839概要与动机知识图谱推理是图谱构建的关键技术之一&#xff0…

新年第二弹|卖萌屋私藏书单大公开

夕本尊 &夕小瑶 推荐作为一个互联网人,不仅要懂技术,还应该了解行业的基本运作原理。这其中一个重要的问题是:为什么互联网产品(基本)都是免费的,甚至纷纷给用户送钱,它们却能有这么强的盈利…

LeetCode 437. 路径总和 III(双重递归)

1. 题目 给定一个二叉树,它的每个结点都存放着一个整数值。 找出路径和等于给定数值的路径总数。 路径不需要从根节点开始,也不需要在叶子节点结束,但是路径方向必须是向下的(只能从父节点到子节点)。 二叉树不超过…

论文浅尝 - ESWA | 知识图谱的自动扩充方法

论文笔记整理:谭亦鸣,东南大学博士。来源:ESWA141(2020)链接:https://www.sciencedirect.com/science/article/abs/pii/S0957417419306839为了使计算机理解人类语言,并且实现推理,人类知识需要被表示并储存…

美团大脑:知识图谱的建模方法及其应用

作为人工智能时代最重要的知识表示方式之一,知识图谱能够打破不同场景下的数据隔离,为搜索、推荐、问答、解释与决策等应用提供基础支撑。美团大脑围绕吃喝玩乐等多种场景,构建了生活娱乐领域超大规模的知识图谱,为用户和商家建立…

全栈深度学习第2期: 开发套件与工具篇

一起追剧鸭简介Berkeley全栈深度学习追剧计划是由夕小瑶的卖萌屋发起的优质公开课打卡项目,通过微信群为同期追剧的小伙伴提供交流平台。关于该计划的详请见这里。1. Berkeley深度学习追剧群目前已有1000小伙伴加入,公众号后台回复口令 深度学习追剧 入群…

LeetCode 700. 二叉搜索树中的搜索

1. 题目 给定二叉搜索树(BST)的根节点和一个值。 你需要在BST中找到节点值等于给定值的节点。 返回以该节点为根的子树。 如果节点不存在,则返回 NULL。 2. 解题 class Solution {//递归写法TreeNode *ans NULL; public:TreeNode* searchB…

iOS系统中导航栏的转场解决方案与最佳实践

背景 目前,开源社区和业界内已经存在一些 iOS 导航栏转场的解决方案,但对于历史包袱沉重的美团 App 而言,这些解决方案并不完美。有的方案不能满足复杂的页面跳转场景,有的方案迁移成本较大,为此我们提出了一套解决方案…

论文浅尝 - WSDM20 | 基于弱监督及逐步推理的多关系知识图谱问答

论文笔记整理:刘晓臻,东南大学计算机科学与工程学院本科生。来源:WSDM ’20链接:https://dl.acm.org/doi/abs/10.1145/3336191.3371812动机知识图谱问答(KG-QA)系统大多包含两个步骤:链接问题中的topic entity到KG&…

算法工程师的落地能力具体指的是什么?

文 | 桔了个仔知乎本文已获作者授权,禁止二次转载大家好,这里是桔了个仔,目前是一名Data Scientist(不太想翻译成数据科学家,毕竟感觉自己就是个工程师),过去几年在做基于机器学习的风控与合规系统&#xf…

Android官方开发文档Training系列课程中文版:网络操作之网络管理

原文地址:http://android.xsoftlab.net/training/basics/network-ops/managing.html 这节课将会学习如何对网络资源的使用情况拥有更细粒度的控制力。如果应用程序经常执行大量的网络操作,那么程序应当提供一项设置,以便用户可以控制应用的数…

LeetCode 728. 自除数

1. 题目 自除数 是指可以被它包含的每一位数除尽的数。 例如,128 是一个自除数,因为 128 % 1 0,128 % 2 0,128 % 8 0。 还有,自除数不允许包含 0 。 给定上边界和下边界数字,输出一个列表&#xff0…