论文浅尝 | TANDA: Transfer and Adapt Pre-Trained Transformer Models

论文笔记整理:王春培,天津大学硕士。


       链接:https://arxiv.org/pdf/1911.04118.pdf

动机

这篇文章聚焦的是问答系统(Q&A)中的一个问题:回答句子选择(Answer Sentence Selection,AS2),给定一个问题和一组候选答案句子,选择出正确回答问题的句子(例如,由搜索引擎检索)。AS2 是目前虚拟客服中普遍采用的技术,例如 Google Home、Alexa、Siri 等,即采用搜索引擎+AS2 的模式。

亮点

BERT的亮点主要包括:

(1)提出一种基于变压器(Transformer-based)的 AS2 模型,为解决 AS2 的数据稀缺性问题和精调步骤的不稳定性提供了有效的解决方案。

(2)构建了一个应用于 AS2 的数据库 ASNQ(Answer Sentence Natural Questions)。

概念及模型

本文提出了一种用于自然语言任务的预训练变换模型精调的有效技术-TANDA( Transfer AND Adapt)。首先通过使用一个大而高质量的数据集对模型进行精调,将一个预先训练的模型转换为一个用于一般任务的模型。然后,执行第二个精调步骤,以使传输的模型适应目标域

 

  • 模型体系结构

TANDA 架构如下图所示(以BERT为例):

             

 

  • AS2任务:

给定问题 q 和答案句子库 S={s1,...,sn},AS2 任务目的是找到能够正确回答 q 的句子 s_k,r(q,S)=s_k,其中 k=argmax p(q,s_i),使用神经网络模型计算 p(q,s_i)。

 

  • 变压器模型 (Transformer Model)

变压器模型的目的是捕获单词间的依赖关系,下图为文本对分类任务的变压器模型架构:

             

输入包括两条文本,由三个标记 [CLS]、[SEP] 和 [EOS] 分隔。将根据令牌、段及其位置编码的嵌入向量作为输入,输入到transformer模型中。输出为嵌入向量 x,x 描述单词、句子分段之间的依赖关系。将 x 输入到全连接层中,输出层用于最终的任务。

 

  • TANDA

在经典的任务中,一般只针对目标任务和域进行一次模型精调。对于AS2,训练数据是由问题和答案组成的包含正负标签(答案是否正确回答了问题)的句子对。当训练样本数据较少时,完成 AS2 任务的模型稳定性较差,此时在新任务中推广需要大量样本来精调大量的变压器参数。本文提出,将精调过程分为两个步骤:转移到任务,然后适应目标域。

   首先,使用 AS2 的大型通用数据集完成标准的精调处理。这个步骤应该将语言模型迁移到具体的 AS2 任务。由于目标域的特殊性(AS2),所得到的模型在目标域的数据上无法达到最佳性能,此时采用第二个精调步骤使分类器适应目标域。

 

  • ASNQ

本文构建了一个专门适用于 AS2 任务的通用数据库 ASNQ。ASNQ 基于经典 NQ 语料库建设,NQ 是用于机器阅读(Machine Reading,MR)任务的语料库,其中每个问题与一个 Wiki 页面关联。

实验

不同模型在WikiQA数据集上的性能如下图所示:

             

 

不同模型在treco - qa数据集上的性能如下图所示:

             

 

对于简单的FT和TANDA, wiki - traindata上的MAP和MRR随着微调次数的变化而变化,如下图所示:

             

 

FT与TANDA在Alexa虚拟助手流量数据集上的比较如下图所示:

             

 

总结

本文的工作将经典的精调(fine-tuning)过程拆成了两次,其中一次针对通用数据集,另一次针对目标数据集,此外,还专门构建了适用于AS2任务的通用数据集ASNQ。本文在两个著名的实验基准库:WikiQA和TREC-QA上进行实验,分别达到了 92% 和 94.3% 的 MAP 分数,超过了近期获得的 83.4% 和 87.5% 的最高分数。本文还讨论了 TANDA 在受不同类型噪声影响的 Alexa 特定数据集中的实验,确认了 TANDA 在工业环境中的有效性。

 


 

OpenKG

开放知识图谱(简称 OpenKG)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。

点击阅读原文,进入 OpenKG 博客。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/479167.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

深入浅出排序学习:写给程序员的算法系统开发实践

引言 我们正处在一个知识爆炸的时代,伴随着信息量的剧增和人工智能的蓬勃发展,互联网公司越发具有强烈的个性化、智能化信息展示的需求。而信息展示个性化的典型应用主要包括搜索列表、推荐列表、广告展示等等。 很多人不知道的是,看似简单的…

从ScrollView嵌套EditText的滑动事件冲突分析触摸事件的分发机制以及TextView的简要实现和冲突的解决办法

本篇文章假设读者没有任何的触摸事件基础知识,所以我们会从最基本的触摸事件分发处说起。 ScrollView为什么会出现嵌套EditText出现滑动事件冲突呢?相信你会有这种疑问,我们来看这么一种情况: 有一个固定高度的EditText&#xff…

LeetCode 1185. 一周中的第几天

1. 题目 给你一个日期,请你设计一个算法来判断它是对应一周中的哪一天。 输入为三个整数:day、month 和 year,分别表示日、月、年。 您返回的结果必须是这几个值中的一个 {“Sunday”, “Monday”, “Tuesday”, “Wednesday”, “Thursda…

使用NLP和ML来提取和构造Web数据

原文链接:https://blog.csdn.net/fendouaini/article/details/109374462 作者|Conner Brew 编译|VK 来源|Towards Data Science 介绍 在本文中,我们将创建一个基于战争研究所(ISW)的结构化文档数据库。ISW为外交和情报专业人员提供…

如何评价一个推荐系统的好坏?

文 | Nemo知乎本文已获作者授权,禁止二次转载现如今,推荐系统几乎无处不在。电商购物,有猜你喜欢。资讯阅读,有个性推荐。听歌看电影,都能识别你的兴趣。就连工作社交,也会提示你可能认识的人...推荐系统火…

论文浅尝 | GEOM-GCN: Geometric Graph Convolutional Networks

论文笔记整理:毕祯,浙江大学硕士,研究方向:知识图谱、自然语言处理。动机消息传递神经网络(MPNN)已成功应用于现实世界中的各种应用中。但是MPNN聚合器的两个基本弱点限制了它们表示图结构数据的能力&#…

ScrollView嵌套EditText联带滑动的解决办法

本篇文章的相关内容需结合上文:从ScrollView嵌套EditText的滑动事件冲突分析触摸事件的分发机制以及TextView的简要实现和冲突的解决办法 在说完了如何解决ScrollView嵌套EditText的滑动事件冲突之后,我们接下来说一下如何实现它们两者之间的联带滑动。什…

数据库智能运维探索与实践

从自动化到智能化运维过渡时,美团DBA团队进行了哪些思考、探索与实践?本文根据赵应钢在“第九届中国数据库技术大会”上的演讲内容整理而成,部分内容有更新。 背景 近些年,传统的数据库运维方式已经越来越难于满足业务方对数据库的…

论文浅尝 | PAKDD2020 - 利用支持集中匹配信息的 few shot 事件分类方法

论文笔记整理:申时荣,东南大学博士生。来源:PAKDD 2020链接:https://arxiv.xilesou.top/pdf/2002.05295.pdf1.介绍:事件分类是一个重要的信息抽取任务,其目的是根据事件的提及实例对事件类别进行分类。目前…

梯度下降法的神经网络容易收敛到局部最优,为什么应用广泛?

文 | Summer Clover知乎本文已获作者授权,禁止二次转载这是Deep Learning Theory里很基本也很核心的一个问题。在这个问题上,初学者容易被入门教学误导,非此研究方向的业内人士也容易有过时的认知。首先问题描述不够准确。更准确的说法是&…

机器学习在美团配送系统的实践:用技术还原真实世界

在2018 AI开发者大会(AI NEXTCon)上,美团配送AI方向负责人何仁清,分享了美团在即时配送领域中机器学习技术的最新进展,以及如何通过大数据和机器学习手段,建立对线下真实世界各种场景的感知能力&#xff0c…

LeetCode 99. 恢复二叉搜索树(中序遍历)

1. 题目 二叉搜索树中的两个节点被错误地交换。 请在不改变其结构的情况下,恢复这棵树。 你能想出一个只使用常数空间的解决方案吗? 2. 解题 循环中序遍历(栈),记录不满足的节点,交换其valO(n)O(n)O(n)…

AAAI21 | Seq2Seq模型成为“复读机”的原因找到了?

文 | 苏剑林编 | Sheryc_王苏单位 | 追一科技去年笔者写过博文《如何应对Seq2Seq中的"根本停不下来"问题?》[1],里边介绍了一篇论文中对Seq2Seq解码不停止现象的处理,并指出那篇论文只是提了一些应对该问题的策略,并没有…

论文浅尝 | ICLR 2020 - 图神经网络的预训练策略

论文笔记整理:杨帆,浙江大学计算机学院。动机现有的用于图结构的预训练方法要么只关注node-level,导致在图表示空间没有区分度,要么只关注graph-level,导致在节点表示空间没有区分度。一种优质的节点表示应该保证不仅在…

常见的距离算法和相似度计算方法

原文链接:https://zhuanlan.zhihu.com/p/138107999 首发于算法加油站写文章常见的距离算法和相似度计算方法奋发的菜鸟酱​华东师范大学 计算机技术博士在读91 人赞同了该文章注:不定时更新1.常见的距离算法1.1 欧几里得距离(Euclidean Dista…

美团AI全景图:吃喝玩乐背后的黑科技

很多人都会发现日常生活已经越来越离不开美团了,这个互联网平台涵盖了吃、住、行、游、购、娱……能帮我们做很多事情,非常接地气。黄色的美团外卖骑手,橙色的摩拜单车,还有美团和大众点评的Logo……会不时出现在各个角落&#xf…

LeetCode 547. 朋友圈(图的遍历BFS DFS)

文章目录1. 题目2. 解题2.1 BFS 广度优先2.2 DFS 深度优先1. 题目 问有几个连通网络 2. 解题 2.1 BFS 广度优先 参考图的数据结构 class Solution { public:int findCircleNum(vector<vector<int>>& M) {int n M.size(), groups 0, i;bool visited[n] …

开源开放 | 《大词林》开源 75 万核心实体和围绕核心实体的细粒度概念、关系列表...

1《大词林》简介《大词林》(http://101.200.120.155/)是由哈尔滨工业大学社会计算与信息检索研究中心推出&#xff0c;由我中心秦兵教授和刘铭副教授主持开发&#xff0c;是一个自动构建的大规模开放域中文知识库。自2014年11月推出第一版《大词林》&#xff0c;《大词林》共经…

推荐几个不错的CUDA入门教程(非广告)

文 | godweiyang最近因为项目需要&#xff0c;入坑了CUDA&#xff0c;又要开始写很久没碰的C了。对于CUDA编程以及它所需要的GPU、计算机组成、操作系统等基础知识&#xff0c;我基本上都忘光了&#xff0c;因此也翻了不少教程。这里简单整理一下&#xff0c;给同样有入门需求的…

logging.getLogger(logger)

https://www.cnblogs.com/bjdxy/archive/2012/12/03/2799322.html logging模块学习笔记&#xff1a;logger 对象、日志等级 logger&#xff1a;日志对象&#xff0c;logging模块中最基础的对象&#xff0c;用logging.getLogger(name)方法进行初始化&#xff0c;name可以不填。通…