写了一篇关于 NLP 综述的综述!

文 | 小轶

综述,往往是了解一个子领域最为高效的起点。然而,对于AI这样一个日新月异高速发展的行业,时效性也自然地成为了我们选择综述的衡量指标之一。即使一篇 AI 综述具有超高 citation,如果它写于 20 年前,那对今天的我们来说,这份综述的总结必然是不够全面的。那么,站在 NLP 发展轨迹中的此时此刻,哪些综述是当前最值得阅读的呢?

本文参考了 Elvis Saravia 相关主题的 twitter[1],以及其他网友的推荐,为大家整理了 13 篇高质量综述,囊括了该细分领域的最新发展现状。其中有几篇,卖萌屋已经在往期推送中为大家介绍过了。如果大家对其他某篇特别感兴趣,也可以在评论区留言,点赞数量较多的话,卖萌屋作者团队会在日后的推送中献上该文的详细解析。

Transformer 相关

改良理论总结

首先是绕不开的 Transformer 系列。自 Transformer 在17年底被提出后,又涌现了大量Transformer的变体,各自从不同的角度来改良Transformer。据不完全统计,以改进 Transformer 为主题的论文,已有 200+ 篇。

其实从去年开始就已经陆续有了几篇 Transformer 相关的综述文章,卖萌屋也有过相关的推送。譬如,子龙小哥哥的这篇《Transformer哪家强?Google爸爸辨优良!》,讲的是去年年底谷歌推出的一份 Transformer 综述。Sherry 也写过《谁才是Transformer家族中的最强王者?谷歌告诉你答案》,这篇更于侧重实验论证,而非理论小结:通过实验比较了各类对 Transformer的改进方式,发现“最有效的改进反而是那些简单而细节的变化:比如替换成GeGLU激活函数,使用RMS正则化等;而反观模型上的改进,很少的方法可以推广到所有任务中”。

在诸多 Transformer 综述中,我们最为推荐的是以下这篇:

论文标题
A Survey of Transformers
原文链接
https://arxiv-download.xixiaoyao.cn/pdf/2106.04554

来自于复旦邱锡鹏老师的团队,6月15日刚刚发表在arxiv上,应该是当前最新、最全面的 Transformer 综述了。和之前综述相比,这篇文章以Transformer各结构模块为脉络进行总结(如下图所示),结构会更加清晰一些。

下游任务应用指南

上面这一篇主要是从理论角度进行总结,但在实际应用中可能还是不太清楚应该采用怎样的架构。如果你有类似的问题,不妨阅读以下这篇,可能会有所启发:

论文标题
The NLP Cookbook: Modern Recipes for Transformer based Deep Learning Architectures
原文链接
https://arxiv-download.xixiaoyao.cn/pdf/2104.10640

这篇文章是基于任务场景进行总结的,相当于一个 Transformer 应用指南了。今年4月发表在arxiv上,也是时效性非常强的文章了。

另外再推荐一篇发表于今年 IJCAI'21 的 survey。这篇是专门讲预训练语言模型在文本生成上的应用。做生成的同学可以看一看:

论文标题
Pretrained Language Models for Text Generation: A Survey
原文链接
https://arxiv-download.xixiaoyao.cn/pdf/2105.10311

轻量 Transformer

基于 Transformer 的模型往往规模宏大,训练时间也比较长。实际应用时,往往限于实验条件和落地场景,需要对其进行改造以提高运算效率、压缩模型规模。以下两篇综述,对于如何提高 Transformer 效率的方法进行了总结:

论文标题
A Practical Survey on Faster and Lighter Transformers
原文链接
https://arxiv-download.xixiaoyao.cn/pdf/2103.14636

论文标题
Efficient Transformers: A Survey
原文链接
https://arxiv-download.xixiaoyao.cn/pdf/2103.14636

关于轻量 Transformer,卖萌屋往期也有不少相关推送,这里推荐两篇其中较新的:《超硬核 ICML’21 | 如何使自然语言生成提速五倍》(五星推荐(ง •̀_•́)ง),以及《Transformer太大了,我要把它微调成RNN》。

视觉 Transformer

与NLP领域不同,隔壁CV界长期占主导地位的还是 CNN 系列的框架。直到去年,我们无敌的 Transformer 开始向 CV 界渗透。在下图时间轴中,罗列了 Transformer发展历程中的几大里程碑,其中视觉 Transformer 模型被标为红色。

下面这篇综述对视觉 Transformer 模型做了总结。对这个新兴方向感兴趣的话,不妨以它作为深入了解的起点:

论文标题
A Survey on Visual Transformer
原文链接
https://arxiv-download.xixiaoyao.cn/pdf/2012.12556

但这篇文章写于今年年初,有不少今年新出的相关工作并未囊括,其中就包括今年大火的、霸榜了 CV 各大榜单的 Swin Transformer(关于 Swin Transformer的介绍,可以参阅《屠榜CV还不是这篇论文的终极目标,它更大的目标其实是……》)。

GNN

图神经网络也是现在大火的方向。在所有能跟逻辑结构之类、能跟图结构扯上点关系的子领域,似乎只要在模型架构里接个 GNN,一篇 paper 就差不多成了 (:з」∠)

关于GNN的综述,我们推荐以下两篇:

论文标题
A Comprehensive Survey on Graph Neural Networks
原文链接
https://arxiv-download.xixiaoyao.cn/pdf/1901.00596

论文标题
Graph Neural Networks for Natural Language Processing: A Survey
原文链接
https://arxiv-download.xixiaoyao.cn/pdf/2106.06090

其中最为经典、citation最高的是第一篇,发表于19年底,如今引用量已有1600+;篇幅也比较短(22页)。第二篇是今年最新的综述,篇幅有127页之多。

对于初学者还是更推荐第一篇,可以配合下面这个视频共同食用。这个教学视频是李宏毅老师的 TA 补充课程,非常初学者友好。

GNN 教学视频
https://www.youtube.com/watch?v=eybCCtNKwzA

文本增强

数据增强,简单来说就是构造新数据、扩大数据量的技术。那在 NLP 领域,就是构造新的文本数据,也就是所谓的“文本增强”。现在文本增强已经有很多现成的工具库了。对于数据稀疏的场景,都可以试一试文本增强,往往能获得意想不到的效果。在我们上月的推送《谢撩,人在斯坦福打SoTA》中,Jazon 小哥哥就是巧妙地应用了文本增强的方法,一不小心就把 CS224n 大作业刷成了 SoTA。

文本增强的综述首推下面这篇,由 CMU 、MILA 、谷歌联合推出,发表于今年3月:

论文标题
A Survey of Data Augmentation Approaches for NLP
原文链接
https://arxiv-download.xixiaoyao.cn/pdf/2105.03075

这篇我们 sherry 小姐姐也已经写过了相关介绍:《CMU & MILA & 谷歌 | 三家巨头发布史上最干文本增强总结》。

这里也顺便给大家推荐几个好用的文本增强工具:

  • NLPAUGhttps://github.com/makcedward/nlpaug

  • TextAttack:https://github.com/QData/TextAttack

  • Noisemixhttps://github.com/noisemix/noisemix

  • Textaugmenthttps://github.com/dsfsi/textaugment

  • Niacinhttps://github.com/deniederhut/niacin

  • SeaQuBe:https://github.com/bees4ever/SeaQuBe

Multi-task Learning

多任务学习的相关工作其实一直都有。近期 NLP 界比较流行的做法是 multi-task + 预训练的范式。最简单的做法就是根据具体应用场景,在domain continual pretrain 的时候添加几个辅助任务。比如,要训一个会解数学题的 AI,就可以添一个辅助任务,让模型根据题面预测对应知识点(参见《ACL'21 | 多模态数值推理新挑战,让 AI 学解几何题》)。只要辅助任务添加得合理,一般都是能获得性能提升的。要是设计得比较新颖,效果比较好,说不定又是一篇 paper (:з」∠)

在 multi-task 方面最为经典的综述是以下这篇:

论文标题
An Overview of Multi-Task Learning in Deep Neural Networks
原文链接
https://arxiv-download.xixiaoyao.cn/pdf/1706.05098

AI 工业落地

最后推荐这三篇与 AI 工业落地相关,并不止限于 NLP 的角度。

论文标题
Efficient Deep Learning: A Survey on Making Deep Learning Models Smaller, Faster, and Better
原文链接
https://arxiv-download.xixiaoyao.cn/pdf/2106.08962

论文标题
Requirement Engineering Challenges for AI-intense Systems Development
原文链接
https://arxiv-download.xixiaoyao.cn/pdf/2103.10270

论文标题
Technology Readiness Levels for Machine Learning Systems
原文链接
https://arxiv-download.xixiaoyao.cn/pdf/2101.03989

第一篇主要是讲如何从模型设计和硬件环境等方面提高模型效率,讨论了在工业落地时应该优先考虑哪些模型效率问题,优先从哪些角度进行优化等等重要问题。

第二篇探讨的是 AI 落地所面临的挑战,包括数据需求、性能定义(评估问题)等等,并且给出了许多实用的 tips。

第三篇于今年年初发布,由12家工业&学术界巨头联合推出了一个所谓机器学习技术成熟度 量表,用于说明一个合格的 ML 产品要经过哪些检验才能上线。关于这篇的详细解读可以参考往期推送《学术&工业界大佬联合打造:ML产品落地流程指南》(出自亲爱的白鸟鸟同学 (✿◡‿◡)。

小结

以上就是我们为大家推荐的 13 篇前沿综述。仅仅 13 篇当然还远不足以覆盖到 NLP 研究的方方面面。如果有未提及的精品 NLP 综述,也欢迎各位在评论区补充~

不知道大家是不是也和小轶一样,每次翻到高质量综述的时候,就会有一种学习的热情油然而生。仿佛只要啃完眼前这篇综述,就可以进化了一样!就让我们一起加油 —— 启 动 超 级 爱 学 习 形 态 (ง •̀_•́)ง!

萌屋作者:小轶

之前的作者介绍是去年夕总帮我写的,关注小屋比较久的小伙伴或许还记得:“本科毕业于北大计算机系的美少女学霸。原计划赴美国就读CMU的王牌硕士项目MCDS,不过因为疫情正处于gap year,于是就来和小夕愉快地玩耍啦......” 现在 gap year 快结束了,向大家更新一下最新动向。由于在过去一年突然感到前所未有的科研热情,所以——我要读博了。希望未来的日子里也能与卖萌屋的小伙伴们共同成长。不忘初心,保持发量!(知乎ID:小轶)

作品推荐:

  1. 有钱可以多任性?OpenAI提出人肉模型训练,文本摘要全面超越人类表现!

  2. ACL20 Best Paper揭晓!NLP模型评价体系或将迎来重大转折

  3. Attention模型:我的注意力跟你们人类不一样

  4. 谷歌重磅:可以优化自己的优化器!手动调参或将成为历史!?

  5. EMNLP'20最佳论文揭晓!八块肌肉=能打电话?!

  6. 全球44家机构,55位大佬,历时两年,打造最强NLG评测基准!

寻求报道、约稿、文案投放:
添加微信xixiaoyao-1,备注“商务合作”

后台回复关键词【入群

加入卖萌屋NLP/IR/Rec与求职讨论群

后台回复关键词【顶会

获取ACL、CIKM等各大顶会论文集!

 

[1]https://twitter.com/omarsar0/status/1406574508635525125

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/478395.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

美团点评容器平台HULK的调度系统

本文是美团点评基础架构系列文章之一。这个系列将全面介绍支撑数亿用户、超千万日订单的美团点评平台诸多业务的公共基础架构相关技术。系列已经发布的文章包括: - 《分布式会话跟踪系统架构设计与实践》 - 《Leaf——美团点评分布式ID生成系统》 - 《深度剖析开源分…

论文浅尝 | 利用跨内和跨间信息的预训练实体关系编码器

笔记整理 | 朱珈徵,天津大学硕士链接:https://www.aclweb.org/anthology/2020.emnlp-main.132.pdf动机从自由文本中提取实体和关系是自然语言处理中的一项重要任务。它的目标是识别具有特定类型(实体)和这些实体(关系)之间的语义关系的文本。本文主要研究…

python的环境变量设置

程序和可执行文件可以在许多目录,而这些路径很可能不在操作系统提供可执行文件的搜索路径中。 path(路径)存储在环境变量中,这是由操作系统维护的一个命名的字符串。这些变量包含可用的命令行解释器和其他程序的信息。 Unix 或 Windows 中路径变量为 P…

LeetCode 76. 最小覆盖子串(滑动窗口)

1. 题目 给你一个字符串 S、一个字符串 T,请在字符串 S 里面找出:包含 T 所有字母的最小子串。 示例: 输入: S "ADOBECODEBANC", T "ABC" 输出: "BANC"说明: 如果 S 中不存这样的子串&#xff…

推荐一个可交互的 Attention 可视化工具!我的Transformer可解释性有救啦?

本文首发于微信公众号”夕小瑶的卖萌屋“文 | Sherry源 | 夕小瑶的卖萌屋视觉是人和动物最重要的感觉,至少有80%以上的外界信息是经过视觉获得的。我们看论文的时候,通过图表来确定文章的大致内容往往也是一个更高效的 说到深度神经网络的可视化&#xf…

机器学习中模型优化不得不思考的几个问题

本文根据美团点评算法工程师胡淏4月22日在“携程技术沙龙”上的分享整理而成。文字综合了“携程技术中心”微信公众号的版本和胡淏本人在微博上发表的文章,并有少量编辑加工。 图1 机器学习工程师的知识图谱 图1列出了我认为一个成功的机器学习工程师需要关注和积累…

【美团语音交互部】 NLP/知识图谱/语音识别等算法职位开放招聘!

致力于连接最靠谱的算法岗与最强的求职者招聘贴投放请联系微信xixiaoyao-1部门介绍:语音交互部负责美团语音和智能交互技术及产品研发,面向美团业务和生态伙伴,提供对语音和口语数据的大规模处理及智能响应能力。团队以建设业界一流的语音交互…

LeetCode 289. 生命游戏(位运算)

文章目录1. 题目2. 解题2.1 复制数组解法2.2 原地解法2.3 位运算1. 题目 链接&#xff1a;289. 生命游戏 2. 解题 2.1 复制数组解法 很简单&#xff0c;按照题意模拟即可 class Solution { public:void gameOfLife(vector<vector<int>>& board) {if(board…

论文浅尝 | S3QLRDF: 用于大规模RDF数据分布式SPARQL查询的关系分割架构

笔记整理 | 孙磊&#xff0c;天津大学硕士。动机RDF形式的语义网的繁荣对高效、可伸缩以及分布式的存储和高可用和容错并行策略都有着要求。RDF数据的飞速增长提升了在分布式数据管理系统上高效划分策略的需求来提升SPARQL查询性能。亮点本文提出了新的用于RDF的关系分割架构Pr…

美团DSP广告策略实践

近年来&#xff0c;在线广告在整个广告行业的比重越来越高。在线广告中实时竞价的广告由于其良好的转化效果&#xff0c;占有的比重逐年升高。DSP&#xff08;Demand-Side Platform&#xff09;[1]作为需求方平台&#xff0c;通过广告交易平台&#xff08;AdExchange&#xff0…

推荐几个出论文的好方向

如果你准备发AI方向的论文&#xff0c;或准备从事科研工作或已在企业中担任AI算法岗的工作。那么我真诚的向大家推荐&#xff0c;贪心学院《高阶机器学习研修班》&#xff0c;目前全网上应该找不到类似体系化的课程。课程精选了四大主题进行深入的剖析讲解&#xff0c;四个模块…

LeetCode 414. 第三大的数

1. 题目 给定一个非空数组&#xff0c;返回此数组中第三大的数。如果不存在&#xff0c;则返回数组中最大的数。要求算法时间复杂度必须是O(n)。 示例 1: 输入: [3, 2, 1] 输出: 1 解释: 第三大的数是 1.示例 2: 输入: [1, 2] 输出: 2 解释: 第三大的数不存在, 所以返回最大的…

论文浅尝 - ICLR2021 | BERTology 遇上生物学:在蛋白质语言模型中解释注意力

来源&#xff1a;ICLR2021链接&#xff1a;https://arxiv.org/abs/2006.15222v3一.动机Transformer架构已经被证明可以学习有用的蛋白质分类和生成任务表示。然而&#xff0c;在可解释性方面存在挑战。二.亮点本文通过attention分析蛋白质Transformer模型&#xff0c;通过atten…

Vuex框架原理与源码分析

Vuex是一个专为Vue服务&#xff0c;用于管理页面数据状态、提供统一数据操作的生态系统。它集中于MVC模式中的Model层&#xff0c;规定所有的数据操作必须通过 action - mutation - state change 的流程来进行&#xff0c;再结合Vue的数据视图双向绑定特性来实现页面的展示更新…

在错误的数据上,刷到 SOTA 又有什么意义?

文 | Severus编 | 小轶小编注&#xff1a;前段时间&#xff0c;小屋介绍了吴恩达老师近期发起的以数据为中心的 AI 竞赛&#xff08;参见《吴恩达发起新型竞赛范式&#xff01;模型固定&#xff0c;只调数据&#xff1f;&#xff01;》&#xff09;。吴恩达老师认为&#xff1a…

论文浅尝 | BoxE:一种基于Box的知识图谱表示学习模型

笔记整理 | 耿玉霞&#xff0c;浙江大学直博生。研究方向&#xff1a;知识图谱&#xff0c;零样本学习等。论文链接: https://arxiv.org/pdf/2007.06267.pdf本文是发表在NeurIPS 2020上的一篇基于Box的知识图谱表示学习模型的文章。在以往知识图谱表示学习&#xff08;KG Embe…

LeetCode 127. 单词接龙(图的BFS/双向BFS)

文章目录1. 题目2. 图的BFS解题2.1 单向BFS2.2 双向BFS &#xff01;厉害了1. 题目 给定两个单词&#xff08;beginWord 和 endWord&#xff09;和一个字典&#xff0c;找到从 beginWord 到 endWord 的最短转换序列的长度。 转换需遵循如下规则&#xff1a; 每次转换只能改变…

Leaf——美团点评分布式ID生成系统

在复杂分布式系统中&#xff0c;往往需要对大量的数据和消息进行唯一标识。如在美团点评的金融、支付、餐饮、酒店、猫眼电影等产品的系统中&#xff0c;数据日渐增长&#xff0c;对数据分库分表后需要有一个唯一ID来标识一条数据或消息&#xff0c;数据库的自增ID显然不能满足…

@开发者,第二届马栏山杯国际音视频算法大赛高分攻略请查收,心动大奖等你来战!...

一秒让墙上的广告消失&#xff0c;保留完整墙面&#xff1b;户外大屏幕显示LOGO被擦除后&#xff0c;背景毫不违和……欢迎来到魔法世界——停&#xff01;这其实并不是什么魔法&#xff0c;而是由弗吉尼亚理工大学提出的基于流的视频补全算法FGVC的一项应用。作为视频的“橡皮…

论文小综 | Attention in Graph Neural Networks

作者 | 方尹、杨海宏&#xff0c;浙江大学在读博士&#xff0c;主要研究方向为图表示学习近年来&#xff0c;图卷积神经网络(Graph Convolutional Network, GCN)利用图卷积从图结构数据中提取特征&#xff0c;成功应用于节点分类、图分类、链接预测等任务&#xff0c;用途广泛。…