在深度学习顶会ICLR 2020上,Transformer模型有什么新进展?

一只小狐狸带你解锁炼丹术&NLP秘籍

大数据文摘出品

来源:medium

编译:一一、Andy

ICLR是机器学习社群最喜爱的会议平台之一。如今,机器学习领域的会议已成为预印本里论文质量的标志和焦点。但即使这样,论文的发表数量还是越来越庞大,这使得紧跟最新进展变得困难。

在Zeta Alpha,我们会密切关注自然语言处理(NLP)和信息检索(IR)领域研究的最新进展。本着这种精神,在我们的语义搜索引擎的帮助下,我们从ICLR 2020 40篇与Transformer模型相关的论文中精选了9篇,涵盖了架构改进,训练创新和其他应用这三个方面。

架构改进

了解transformer模型的最近更新。

ALBERT:用于语言表征自监督学习的轻量BERT模型

Transformer模型在很大程度上已过参数化,因为这是在很多NLP任务中表现优异的一种有效方式。而ALBERT则是一个可以使BERT减少资源占用,同时又保持出色性能的很有影响力的例子。

这些优化包括:

  • 因式分解词向量参数:通过使用不同的隐单元大小,而不是词向量原来大小,词向量参数可被因式分解,让其大小从O(Vocab × Hidden) 降低到 O(Vocab × Emb + Emb × Hidden) 。如果其中Hidden 远大于 Emb的话,参数量的降低将是巨大的;

  • 交叉层参数共享:共享不同transformer组件的参数,例如FFN 或注意力权重;

  • 句子排序目标任务:作者认为下句预测在原始的BERT模型中不够具有挑战性,因此引入了这一新的句子层级的自监督目标。

结果如何?以比BERT-large少18倍的参数实现相当的性能和稍快的运算。

论文链接:

https://openreview.net/pdf\?id=H1eA7AEtvS

Reformer:一种高效的Transformer

早期Transformer模型的一大局限性在于,注意力机制的计算复杂度与序列长度成二次关系。这篇文章介绍了一些提高计算效率的技巧,使得模型能实现更长的注意力序列(长度从512上升到64K!)。

为此,该模型主要包括:

  • 仅允许在整个模型中存储单个激活单元副本的可逆层

  • 用位置敏感哈希法(LSH)近似用快速最近邻算法计算的注意力值。这一方法用计算复杂度为O(L log L)的注意力层替代了之前计算度为O(L^2)的注意力层。

论文链接:

https://openreview.net/pdf\?id=rkgNKkHtvB

使用长短距离注意力模型(LSRA)的轻量级Transformer

另一个针对解决Transformer模型远程相关性和高资源需求问题的方案是施加“移动约束”。通过对短期相关性使用卷积层,对长期相关性使用经筛选的注意力层,他们构建了一个新的效率更高的Transformer组件LSRA。

尽管结果比不上其他成熟的Transformer模型,其基本的架构设计和经过深思的研究动机使其值得关注。

论文链接:

https://openreview.net/pdf\?id=ByeMPlHKPH

提名奖(Honorable mentions)

Transformer-XH:

https://openreview.net/pdf\?id=r1eIiCNYwS

Depth-Adaptive Transformer:

https://openreview.net/pdf\?id=SJg7KhVKPH

Compressive Transformer:

https://openreview.net/pdf\?id=SylKikSYDH

关于训练方法

模型如何进行训练学习和模型架构同样重要,所以一些新的文章在这方面有了突破。

ELECTRA:预训练文本编码器作为区分器而不是生成器

从BERT引入之后,掩码语言模型(MLM)一直是预训练任务的基础模型。这篇文章提出了一种更低耗更快速的方法:替换字符检测 (Replaced Token Detection)

其中心思想十分简单:不是让模型猜测被掩盖的字符,而是需要其区分哪些字符已被一个小的生成网络替换,该生成网络将产生合理但错误的token。作者声称这个任务更具有样本有效性,因为该任务是在整个序列上训练而不仅仅是被掩盖的字符上。如果结果证明它们很容易被复现,那这一方法很可能成为无监督学习的新标准。

论文链接:

https://openreview.net/pdf\?id=r1xMH1BtvB

TabFact:一个基于表的事实验证大规模数据集

现代Transformer 模型缩小了机器和人类表现上的差距,很多经典的NLP数据集也随着被废弃,这意味着需要创造出更多新的有挑战性的基准测试来激励前进。因此,一个新的数据集被提出,用于解决对基于事实信息的自然语言表达进行建模的问题

这一数据集用包括来自维基百科的1万6千个表格和来自人工标注为ENTAILMENT或者REFUTED的11万8千个标签来表示事实数据。目前基模型的表现还很一般,所以现在如何创新性地解决这一问题仍令人激动。

论文链接:

https://openreview.net/pdf\?id=rkeJRhNYDH

经过预训练的百科全书:弱监督知识预训练语言模型

这篇文章用更结构化的数据:维基百科和它其中实体来研究自监督训练的能力,而不是应用普通的MLM模型。他们用其他相似类型的实体(如ELECTRA)替换了文本中的实体,模型学习通过上下文来识别这种被替换的句子。通过这种方法,模型被强制学习了现实世界实体的信息,以及它们之间的关系。

这一任务与经典的MLM在预训练时的结合,其能够大大提高Zero-shot实现以及以实体为中心的任务(例如问答和实体输入)的表现

论文链接:

https://openreview.net/pdf\?id=BJlzm64tDH

提名奖(Honorable mentions):

A Mutual Information Maximization Perspective of Language Representation Learning:

https://openreview.net/pdf\?id=rkxoh24FPH

Improving Neural Language Generation with Spectrum Control:

https://openreview.net/pdf\?id=ByxY8CNtvr

Large Batch Optimization for Deep Learning: Training BERT in 76 minutes:

https://openreview.net/pdf\?id=Syx4wnEtvH

其他应用

Transformer模型不仅仅使用于语言建模中,有些其他的工作也巧妙地应用了这一模型的能力来解决相关问题。

BERTScore:用BERT评估文本生成

在定义宽松的环境(如核心文本生成)中客观地评价质量具有固有的挑战性。在语言中,BLUE评分,作为一种与人类对于文本生成任务(如翻译或问题回答)的判断能够较好吻合的文本相似度代理,被广泛使用。但它并不完美。

这一工作解决了这一问题,展示了一个用于序列配对的基于Bert的评分功能如何被设计用于文本生成评估,并能更好地与人类评估吻合。这一过程非常直观,并需要任何精调:只需要经过预训练的上下文嵌入,cosine相似度和基于频率的权重。

尽管在解释性上有些不足,这种经过学习的评分是否会成为一种新的标准呢?这还要交给时间来判断了。

论文链接:

https://openreview.net/pdf\?id=SkeHuCVFDr

用于基于向量大规模检索的预训练任务

考虑到像BM25这样的基准方法的强大和难以击败,信息检索领域已经落后于神经革命。

现在大多数神经增强的SOTA方法需要两个关键步骤:

  • 基于类似BM25的算法对全文档数据集快速过滤;

  • 通过神经网络对query和一个较小的文档子集进行处理实现再排序。

这种方法有很多局限性,第一步忽略掉的文档将不会再被处理,而且在推断阶段完全处理query和文档对的计算成本会严重限制其在现实场景中的应用。

这篇文章探索了只通过预计算好文档表示的向量相似度分数来进行推断的问题,使得大规模的端到端的基于Transformer模型的检索成为可能。

其中关键在于具有段落级自监督任务的预训练,而token级的MLM对于这一任务的作用则几乎可忽略不计。在结果部分,他们展示了即使在相对缺乏监督的训练集下,这一方法也在问答任务中击败BM25。

论文链接:

https://openreview.net/pdf\?id=rkg-mA4FDr

VL-BERT:通用视觉语言表征的预训练

预训练和精整框架如何应用于通用语言和可视化表示的结合学习中?我们找到一个很好的案例:Visual-Linguistic BERT 以Transformer架构为主干,与R-CNNs相结合。尽管这不是同类模型中的首个,但它是对现存模型的更新与提高,并且将Visual Commonsense Reasoning(VCR)的基准提高到一个新的高度

这一预训练步骤依赖两大任务:

  • 具有视觉线索的掩盖语言建模:和原始的MLM模型相似,但加入了被添加说明文字的图片区域的特征;

  • 具有语言线索的掩盖兴趣区域分类:在一定概率下,图片的一些区域被掩盖,目标是在给出语言信息的情况下预测这些被掩盖区域的类型。

论文链接:

https://openreview.net/pdf\?id=SygXPaEYvH

福利:自注意力与卷积层的关系

这一非传统的文章强有力地分析了注意力机制和卷积网络的共同点。有趣的是,他们找到了比大家先前预想的更多的重合点:他们的证据表明,注意力层通常会使用与CNN相似的像素-网格模式

以计算机视觉为例,加上详细的数学推导,他们发现Transformer架构或许是CNN的一种推广,因为他们经常学习与CNN相同的模式,甚至因为能够同时学习局部和全局信息而展现出优势。

论文链接:

https://openreview.net/pdf\?id=HJlnC1rKPB

提名奖(Honorable mentions):

Deep Learning For Symbolic Mathematics:

https://openreview.net/pdf\?id=S1eZYeHFDS

Logic and the 2-Simplicial Transformer (for Deep RL)

  • 巨省显存的重计算技巧在TF、Keras中的正确打开方式

  • 算法工程师的效率神器——vim篇

  • 数据缺失、混乱、重复怎么办?最全数据清洗指南让你所向披靡

  • 硬核推导Google AdaFactor:一个省显存的宝藏优化器

  • 卖萌屋上线Arxiv论文速刷神器,直达学术最前沿!

  • 13个offer,8家SSP,谈谈我的秋招经验

  • BERT重计算:用22.5%的训练时间节省5倍的显存开销(附代码)

  • 知乎搜索框背后的Query理解和语义召回技术

  • 深度神经网络为何会有灾难性遗忘?如何进行有效的持续学习?

  • 模型训练太慢?显存不够用?混合精度训练了解一下

夕小瑶的卖萌屋

_

关注&星标小夕,带你解锁AI秘籍

订阅号主页下方「撩一下」有惊喜哦

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/480581.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

领域应用 | 人工智能+知识图谱:如何规整海量金融大数据?

本文转载自公众号:恒生技术之眼。21世纪以来,人类社会信息资源的开发范围持续扩大,经济、社会信息随着经济活动加剧得到空前的开发,信息资源总量呈爆炸式增长,我们从最初的“信息匮乏”一步踏入到“信息过量”时代。个…

神经网络不应视为模型,推理过程当为机器学习问题一等公民

首发于论智关注专栏写文章神经网络不应视为模型,推理过程当为机器学习问题一等公民编者按:Microsoft Semantic Machines资深研究科学家、UC Berkeley计算机科学博士Jacob Andreas指出,神经网络不应视为模型,因为神经网络的模型和推…

2019最全BAT资深Java面试题答案合集,建议收藏~

马上进入求职招聘高峰,总结了一份BAT(阿里、百度等)资深Java相关的面试题答案合集给到大家。 该板块的各面试章节,后续会持续迭代更新最新一线互联网公司的面试题目,建议收藏该页面,不定期更新查看~ Java…

中国古代诗词文本挖掘项目

PoemMining 项目地址:https://github.com/liuhuanyong/PoemMining Chinese Classic Poem Mining Project including corpus buiding by spyder and content analysis by nlp methods, 基于爬虫与nlp的中国古代诗词文本挖掘项目 项目介绍 中国古代诗词文化无疑是…

推荐系统的价值观

一只小狐狸带你解锁炼丹术&NLP秘籍 前言 推荐系统作为满足人类不确定性需求的一种有效工具,是具有极大价值的,这种价值既体现在提升用户体验上,又体现在获取商业利润上。对绝大多数公司来说,提升用户体验的最终目标也是为了获…

POJ1003/1004/1005/1207/3299/2159/1083/3094/2388解题(刷一波水题)

POJ 1003 题目链接 http://poj.org/problem?id1003 大意&#xff1a;长度1/21/3…1/n&#xff0c;给定长度值&#xff0c;求n #include<iostream> using namespace std; int main() {float len 0,sum;int n;while(cin >> len && len ! 0){for(n2,sum0;s…

论文浅尝 | 远程监督关系抽取的生成式对抗训练

动机远程监督关系抽取方法虽然可以使用知识库对齐文本的方法得到大量标注数据&#xff0c;但是其中噪声太多&#xff0c;影响模型的训练效果。基于 bag 建模比基于句子建模能够减少噪声的影响&#xff0c;但是仍然无法克服 bag 全部是错误标注的情形。为了换机噪声标注&#xf…

谷歌最强NLP模型BERT官方代码来了!GitHub一天3000星

新智元报道 来源&#xff1a;GitHub 作者&#xff1a;Google Research 编辑&#xff1a;肖琴 【新智元导读】谷歌AI团队终于开源了最强NLP模型BERT的代码和预训练模型。从论文发布以来&#xff0c;BERT在NLP业内引起巨大反响&#xff0c;被认为开启了NLP的新时代。 BERT的官方…

Java经典基础与高级面试36题和答案

在Java面试的首轮&#xff0c;经常会问很多关于Java面试基础以及高级的问题&#xff0c;今天收集相关Java面试36题和答案分享出来。 1.”static”关键字是什么意思&#xff1f;Java中是否可以覆盖&#xff08;override&#xff09;一个private或者是static的方法&#xff1f; …

论文浅尝 | 问题生成(QG)与答案生成(QA)的结合

本文转载自公众号&#xff1a;徐阿衡。梳理一下 MSRA 3 篇关于 QG 的 paper&#xff1a;Two-Stage Synthesis Networks for Transfer Learning in Machine ComprehensionQuestion Answering and Question Generation as Dual TasksA Joint Model for Question Answering and Qu…

卖萌屋算法岗面试手册上线!通往面试自由之路

一只小狐狸带你解锁 炼丹术&NLP 秘籍作为算法工程师&#xff0c;基础知识的重要性自然不必多说。虽然在有些项目中比较难感受到基础的作用&#xff0c;但扎实的coding能力&#xff0c;对算法本质和适用情况的理解&#xff0c;始终是决定工作效率与未来发展的重要feature。这…

2019头条抖音Java 3面真题,含面试题答案!

一面&#xff1a; hashmap&#xff0c;怎么扩容&#xff0c;怎么处理数据冲突&#xff1f;怎么高效率的实现数据迁移&#xff1f; Linux的共享内存如何实现&#xff0c;大概说了一下。 socket网络编程&#xff0c;说一下TCP的三次握手和四次挥手 同步IO和异步IO的区别&#…

深入理解XGBoost

本文的主要内容概览&#xff1a;1 XGBoost简介XGBoost的全称是eXtreme Gradient Boosting&#xff0c;它是经过优化的分布式梯度提升库&#xff0c;旨在高效、灵活且可移植。XGBoost是大规模并行boosting tree的工具&#xff0c;它是目前最快最好的开源 boosting tree工具包&am…

会议 | ESWC2018 见闻

本文转载自公众号&#xff1a;南大Websoft 。 ESWC2018于2018年6月2日在希腊克里特岛上的伊拉克利翁举行。会议包括两天的前会(workshops, tutorials) 和三天的正会&#xff0c;参会人数约300人。KeynotesKeynote1: Structural S…

POJ 1804 逆序数 解题(归并排序)

文章目录解法1&#xff1a;直接双重循环求解&#xff0c;n*n复杂度解法2&#xff1a;采用归并排序求解&#xff0c;复杂度nlgn题目链接 http://poj.org/problem?id1804题目大意&#xff1a;让一串无序数&#xff0c;在只能相邻数字交换的前提下&#xff0c;最短的次数变成有序…

史上最全memcached面试26题和答案

Memcached是什么&#xff0c;有什么作用&#xff1f; Memcached是一个开源的&#xff0c;高性能的内存绶存软件&#xff0c;从名称上看Mem就是内存的意思&#xff0c;而Cache就是缓存的意思。Memcached的作用&#xff1a;通过在事先规划好的内存空间中临时绶存数据库中的各类数…

深度学习笔记(六):Encoder-Decoder模型和Attention模型

版权声明&#xff1a;本文为博主原创文章&#xff0c;未经博主允许不得转载。 https://blog.csdn.net/u014595019/article/details/52826423 </div><link rel"stylesheet" href"https://csdnimg.cn/release/phoenix/template/css/ck_h…

会议 | 2018年全国知识图谱与语义计算大会(CCKS 2018)

2018年全国知识图谱与语义计算大会China Conference on Knowledge Graph and Semantic Computing (CCKS 2018)2018年8月14日-17日&#xff0c;天津征稿截止: 2018年5月18日全国知识图谱与语义计算大会&#xff08;CCKS: China Conference on Knowledge Graph and Semantic Comp…

C++ Primer 第11章 泛型算法 学习总结

文章目录11.2 算法11.2.1 只读算法**1.find函数****2.accumulate函数****3.find_first_of 函数**11.2.2 写容器元素算法1.fill函数2.fill_n函数3.back_inserter插入迭代器4.copy函数5.算法的 _copy 版本11.2.3 排序算法sort&#xff08;起始&#xff0c;结束&#xff09;&#…

到底什么是生成式对抗网络GAN?

时间&#xff1a;2017-05-11 男&#xff1a;哎&#xff0c;你看我给你拍的好不好&#xff1f; 女&#xff1a;这是什么鬼&#xff0c;你不能学学XXX的构图吗&#xff1f; 男&#xff1a;哦 …… 男&#xff1a;这次你看我拍的行不行&#xff1f; 女&#xff1a;你看看你的…