从 ACL’22 投稿情况,速览当下 NLP 研究热点!

984b8d6525bdac71eceac74c029f92e1.png

文 | Yimin_饭煲
编 | 小轶

卖萌屋的作者们,最近可真是忙秃了头~,不仅要苦哈哈地赶 ACL 2022 提前了两个月的Deadline,还要尽心尽力为读者们提供高质量的内容。如果大家心疼卖萌屋的作者们的话,还请多多一键三连:)

ACL2022 全部转向了使用 ACL Rolling Review(ARR) 投稿,所有的投稿必须提交到 ARR 11 月及其之前的 Rolling Review (每月可以投稿一次)。考虑到大多数 NLPer 都是 DDL 战士,因此大多数投稿都集中在了 ARR 11 月,可以预见 ACL 2022 的大多数投稿都来源于 ARR 11 月投稿。因此,可以通过对 ARR 11 月投稿的分析,来前瞻 ACL 2022 上的研究趋势~此外,这也是NLP第一顶会 ACL 第一次采用 OpenReview.net 作为投稿的网站,允许作者们发布匿名预印本。下面,就让笔者带着大家一起读读ARR 11月这些匿名发布的投稿,提前两个月预告一下 ACL2022 上的那些热点吧~。

11 月 ARR 网址链接
https://openreview.net/group?id=aclweb.org/ACL/ARR/2021/November

总览:984篇匿名公开投稿 2900+总投稿量

首先总览一下 ARR 11 月份的投稿情况。尽管 ACL 2022 全部采用 ARR 的形式让 NLPer 们的 ACL deadline 一下提前了两个月,不过各位 NLPer 的爆肝能力还是很给力的!总的投稿数目接近 3000 篇,如果在算上前几个月 Rolling Review 投稿到 ACL 2022 的数目,ACL 2022 的投稿数目应该能够达到 ACL 2021 时 3300 篇左右的水平。

eb1d69ae5655532529cafa7f520fe7b8.png
▲ARR 在 11 月收到了 2900+ 份投稿

今年也是(据笔者所知) ACL 主会第一次使用 OpenReview 网站进行投稿。不过并不要求所有投稿必须公开匿名的预印本,而是可以选择公开或者不公开。同时,所有的 Review 也并不会被公开(避免了公开处刑的尴尬~)。有 984 篇投稿选择了公开匿名预印本,因此大家可以先对这些论文一睹为快~

6c6d59f30d458d51286c91821f916d4c.png
▲ARR 公开投稿标题词云

笔者可视化了984篇论文投稿的标题云图,可以从图中看出

  • 标题含有 "Multi" 的论文占有很大的比重,不管是 "Multi-lingual", "Multi-Modal" 还是 "Multi-domain" 都频频出现。可见 NLP 领域正在朝着更通用、更全面的方向发展。

  • 传统的 NLP 方向,如对话、问答、命名实体识别、分类等领域仍然占有重要的地位

  • Prompt 异军突起,在图中左侧颇为显眼

  • Contrastive Learning 风头仍劲,依然占有一席之地(图中左上角)

  • 三年过去,BERT 依然稳居流量高位

下面,笔者将为大家一一解读在已公开投稿中笔者认为有趣的点~和大家聊聊ARR 11月投稿中体现出的NLP发展趋势

"Multi-X" 研究火热,通用智能研究正当其时

在 984 篇匿名公开的投稿预印本中,有接近 100 篇投稿中的标题都涉及到 "Multi", 达到了 10% 的极高比例。其中,有 30 篇左右的工作关注 "Multi-Modal"(多模态), 有 25 篇左右的工作关注"Multi-lingual"(多语言),有 10 篇左右的工作关注 "Multi-task"(多任务)。随着更通用的深度学习架构的发展(例如Transformers),各种模态、各种语言的数据都可以被同一个模型进行处理,同时,通用的Backbone模型也可以为各类丰富的下游任务提供强大的表示,因此具有强大的多任务能力。未来,面向多语言、多模态、多任务的通用深度学习模型必然会快速发展,不仅能做到“一个模型走天下”,降低训练多个模型的开销,更能通过多个模态之间的借鉴和补充提升每个模态和任务上的性能。

Prompt 异军突起,将成2022年NLP界最大热点

如果要评选NLP界2021年的关键词,Prompt Learning一定是许多人的选择(当然,2021的最后一个月是否会出现新的爆点也尚未可知)。CMU 关于 Prompt Learning 的综述,把这一领域送入了许多人的视线。卖萌屋团队对 Prompt Learning 这一领域一直保持了高度的关注,欢迎大家关注卖萌屋的相关推文:《格局打开,带你解锁 prompt 的花式用法》,《一文跟进Prompt进展!综述+15篇最新论文逐一梳理》,《别再Prompt了!谷歌提出tuning新方法,强力释放GPT-3潜力!》。

今年的 NLP 各大会议投稿,Prompt Learning 可以算是增长最快的研究热点了,笔者粗略统计了ARR 11月的投稿,有31篇和Prompt Learning有关的工作,不仅有在信息抽取、语义解析、命名实体识别、事件检测、文本生成等传统NLP领域的应用,还有在多模态、视觉-语言等交叉领域中的尝试。有趣的是,在卖萌屋的推送《别再Prompt了!谷歌提出tuning新方法,强力释放GPT-3潜力!》的评论区,有两位读者表示希望探索 Prompt Learning 在信息抽取领域的应用,不知 ARR 11 月的几篇关于 Prompt Learning 在信息抽取中应用的投稿,有没有哪篇来自于卖萌屋的读者呢~

b0b76615da990c5620f47cfe8f8f4f9d.png
▲往期推送《别再Prompt了!谷歌提出tuning新方法,强力释放GPT-3潜力!》的评论区

对比学习应用广泛,或将成为语言表示学习标准范式之一

在ACL 2021中,NLPer 们纷纷将 CV 中研究火热的对比学习迁移到 NLP 领域中。ACL21的接受论文中有21篇论文题目包含了"contrastive",卖萌屋团队往期推文《我分析了ACL21论文列表,发现对比学习已经...》中,我们详细分析了这些论文的主要研究点。一年过去了,对比学习在NLP领域依然热度不减,今年的 ARR 11 月投稿中有 37 篇涉及到对比学习的工作,几乎涵盖了 NLP 中的所有领域,不仅有句子表示和文档表示生成等经典应用场景,更有拼写纠错、文本总结、事实验证等新兴应用领域。对比学习能帮助模型生成性质更好的语义表示,对无标注样本有着更好的利用。未来,也许对比学习会成为语言表示学习领域的标准范式之一!

数据集价值越发重要,新兴 Benchmark 赋能 NLP 快速发展

数据集的发展和方法的进步互相耦合,共同推进了 NLP 领域的发展。目前在 NLP 领域的方法层面,大多基于 Transformer 结构进行改进,在模型结构和算法方面的创新似乎陷入了“瓶颈期”。于是,发展更新、更难、应用场景更丰富的数据集,定义新的任务场景,成为了越来越多工作的着力点。在 ARR 11 月的已公开投稿中, 有 50 篇以上提出新数据集和评测基准的工作。不仅涉及了少样本学习、对抗样本检测、因果推理、开放域问答等传统的NLP领域,同样有许多关注垂直领域自然语言处理应用的数据集,例如法律文本自然语言处理、生物医药自然语言处理、短视频标题生成、手语识别、科幻文本理解。在可预见的未来,这些数据集将促进对模型、更全面的比较,加速垂直领域自然语言处理的学研究和产业应用。

速览中文领域NLP工作,期待中文研究产生更大国际影响力

知乎上有一个问题“为什么中文NLP数据集这么少?”,吸引了刘知远、邱锡鹏老师等国内 NLP 学术界大神回答。尽管在中文领域已经有了许多大模型可供使用,也出现了 CLUE 等中文 NLP 评测基准,但在多模态、问答、文本摘要等细分领域仍然缺少高质量的中文数据集发展,在一些领域的中文数据集甚至是由英文数据集直接翻译而来。此外,由于中文的文字和语言学特征与主流的研究语言英语有着较大的差距,基于英语研究得到的方法未必能迁移到中文上得到好的效果。建立全面高质量的中文 NLP 评测基准,发展面向中文优化的 NLP 方法,不仅能促进中文 NLP 学术界和工业界的研究和应用,更有助于提升中文 NLP 研究在国际学术界的影响力。11 月的 ARR 投稿中有 27 篇面向中文 NLP 的研究工作。在数据集方面,有工作提出了中文领域的小样本关系链接基准、科技类文本数据集、新闻摘要数据集、对话常识知识图谱、生物医药文本理解数据集、短视频标题生成基准。在方法方面,解决了中文命名实体识别的优化、拼音输入的优化、少数民族语言预训练、中文拼写检查、古诗情感分类等一系列极具中文特色的研究问题。期待中文NLP研究继续蓬勃发展,产生更大的国际影响力。

趣谈:NLP 界又出现了多少 All you need?

如果要选取五年来NLP领域中最经典的一篇工作,那么 Attention Is All You Need 这篇工作应该是一个大多数人都能够信服的选择。这篇工作提出了现在 NLP 领域的核心结构 Transformer。基于 Transformer 结构的模型已经逐渐在NLP、多模态乃至计算机视觉领域都成为了主流。同样抓人眼球的是这篇文章的标题,一时间在AI圈掀起了一股 “XXX is all you need” 的取名潮流。笔者了解到“All you need"的就包括且不限于 CNN/Pre-training/Image Augmentation/Depthwise convolution/Bytes/Focus/Channel Attention is All you need。当然,还有业内人士时常调侃的所谓"Money is All you need"。ARR 11月的投稿中,也有两篇用 All you Need 起名的投稿,分别是 Multimodal Learning: Are Captions All You Need?Tokenization on the Number Line is All You Need。分别描述了在视觉语言学习中使用标题替代视觉信号的作用一种优化数字分词的方式,都是很有趣的短文~推荐一读。

趣谈:最长标题和最短标题

大多数的AI论文,标题长度都在5个词到15个词左右,不过总有一些有趣的论文有着很长或者很短的标题。ARR 11月投稿中标题最长的论文Innovative Measures of Patient and Disease Phenotyping: Optimizing Linguistic and Machine Learning Techniques in the Investigation of Electronic Health Record (EHR) Data。本文描述了一种通过结合语言特征工程、竞争建模和人类反馈的电子健康数据利用方式。ACL ARR 11月投稿中标题最短的论文仅有一个词: EventBERT。本文通过结合事件相关的语义表示使得BERT从基于事件的图结构和语义表示中获益,并在GLUE上验证了有效性。

趣谈:三年之后,又有多少新BERT?

2018年BERT的横空出世,改变了NLP领域研究的格局,基于BERT架构的模型迅速占据了各大排行榜的前列,出现了各种各样修改版的 "XXBERT"。ARR 11 月的投稿中,也有许多以 “XXBERT” 命名的工作,包括 KNN/Kinya/Bangla/ga/Lord/Mark/Aleph/Cal/Pinyi/PromptBERT 等各式各样的 BERT 出现,面向少数群体语言、Prompt Learning 等任务上基于 BERT 模型得到了优秀的效果。尽管有许多尝试改进 Transformers 结构的工作出现,但是在大多数主流的 NLP 任务中,BERT 还是 YYDS!

89f9a423136097297c76aacbd920ef1b.png结语f01fe73bdc2a0412e1416d0ce6b858c8.png

读完这篇 ACL 2022 投稿前瞻预告后,不知道大家对 ACL 2022 的精彩是不是更加期待了呢~

最后想说,Paper诚可贵,健康价更高。希望卖萌屋的读者们,在辛苦赶完ACL DDL之后,多休息多运动,准备好迎接下一个项目的挑战吧~最后祝大家的 ACL 投稿都有一个好结果,Paper 高中!现在越来越多的会议开始转为 openreview 的形式。如果大家对这篇解读 ACL Rolling Review 的工作感兴趣的话,卖萌屋日后也会努力推出更多的类似解读!

86f4321df1cfc419ae41164903515535.png萌屋作者:Yimin_饭煲

在微软NLC组搬砖的联培博士生,爱好摄影和运动,希望卖萌屋早日开通视频业务,我来当摄影师!

作品推荐

  1. 学完文本知识,我就直接看懂图片了!

  2. 别再Prompt了!谷歌提出tuning新方法,强力释放GPT-3潜力

  3. 大模型炼丹无从下手?谷歌、OpenAI烧了几百万刀,总结出这些方法论…

99a87a0d0e124140b0871eff0efd9906.png后台回复关键词【入群

加入卖萌屋NLP/IR/Rec与求职讨论群

后台回复关键词【顶会

获取ACL、CIKM等各大顶会论文集!

47580c0b913156bc922a1056a92c939c.gif

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/477815.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

开源开放 | DeepKE发布新版本:支持低资源、长篇章、多任务的图谱抽取开源框架(浙江大学)...

OpenKG地址:http://openkg.cn/tool/deepkeGitHub地址:https://github.com/zjunlp/deepkeGitee地址:https://gitee.com/openkg/deepkeDeepKE网站:http://deepke.zjukg.org/CN/index.html开放许可协议:GPL 3.0贡献者&…

LeetCode 478. 在圆内随机生成点(概率)

1. 题目 给定圆的半径和圆心的 x、y 坐标,写一个在圆中产生均匀随机点的函数 randPoint 。 说明: 输入值和输出值都将是浮点数。圆的半径和圆心的 x、y 坐标将作为参数传递给类的构造函数。圆周上的点也认为是在圆中。randPoint 返回一个包含随机点的x坐标和y坐标…

11月AI大事件回顾:GPT3开放使用/女娲视觉大模型/AE文艺复兴/...

编 | iven感谢提供本期内容的 ZenMoore、 jxyxiangyu、付瑶大家好~ 11月的新闻速报来啦!上个月不知道大家有没有忙着写文章,反正小编是这样的:好啦,让我们快来回顾上个月的 AI 大新闻吧!学术进展何恺明 Mas…

开源开放 | 开源立体化漏洞情报知识图谱(四维创智)

OpenKG地址:http://openkg.cn/dataset/vuln-sprocket开放许可协议:CC BY-SA 4.0 (署名相似共享)贡献者:四维创智(李德斌,孙基栩,鲍晨阳)1. 前言随着时间的推移&#xff0…

LeetCode 515. 在每个树行中找最大值(层序遍历)

1. 题目 您需要在二叉树的每一行中找到最大的值。 示例: 输入: 1/ \3 2/ \ \ 5 3 9 输出: [1, 3, 9]来源:力扣(LeetCode) 链接:https://leetcode-cn.com/problems/find-largest-value-in-each-tree-row 著作…

GBDT是如何成为推荐系统顶级工具人的?

文 | 水哥源 | 知乎Saying1. 集成学习的ensemble注意一定要读作昂三姆包而不是印三姆包,一天一个算法工程师装x小技巧2. 区别bagging和boosting的准则是,先训练的模型对于后训练的模型是否有影响3. GBDT中,B(boosting)…

会议交流 | 如何提升推荐系统的可解释性?——DataFunSummit2022知识图谱在线峰会...

背景介绍知识图谱及特征学习结合智能推荐,可解决数据稀疏性及冷启动问题,更好的提升推荐决策场的准确性、多样性及可解释性,进而提升各个场景的推荐决策效率和体验。3月12日13:30-16:50,在DataFunSummit2022:知识图谱在…

LeetCode 143. 重排链表(链表反转+快慢指针)

1. 题目 给定一个单链表 L:L0→L1→…→Ln-1→Ln , 将其重新排列后变为: L0→Ln→L1→Ln-1→L2→Ln-2→… 你不能只是单纯的改变节点内部的值,而是需要实际的进行节点交换。 示例 1: 给定链表 1->2->3->4, 重新排列为…

论文浅尝 | 采用成对编码的图卷积网络用于知识图谱补全

笔记整理:姚祯,浙江大学在读硕士,研究方向为知识图谱表示学习,图神经网络。论文引用:Liu S, Grau B, Horrocks I, et al. INDIGO: GNN-based inductive knowledge graph completion using pair-wise encoding[J]. Adva…

调研了下 AI 作曲,顺便做了期视频...快进来听歌!

文 | 白鹡鸰编 | 小轶视频 | 白鹡鸰嗨,大家好!这里是卖萌屋,我是白鹡鸰。今天和大家聊聊人工智能作曲。人工智能在音乐领域的应用已经非常常见了,像听歌识曲、曲风分类、自动扒谱等等,而 利用机器来替代人类作曲 &…

LeetCode 1275. 找出井字棋的获胜者(位运算)

1. 题目 A 和 B 在一个 3 x 3 的网格上玩井字棋。 井字棋游戏的规则如下: 玩家轮流将棋子放在空方格 (" ") 上。第一个玩家 A 总是用 “X” 作为棋子,而第二个玩家 B 总是用 “O” 作为棋子。“X” 和 “O” 只能放在空方格中,而…

论文浅尝 | DSKReG:基于关系GNN的推荐知识图谱可微抽样

笔记整理:李爽,天津大学硕士链接:https://dl.acm.org/doi/pdf/10.1145/3459637.3482092动机在信息爆炸的时代,推荐系统被广泛研究和应用,以发现用户的偏好信息。RS在冷启动时性能较差,如果将知识图谱(Knowl…

数据开放平台的配置管理

背景 美团是数据驱动的技术公司, 非常重视使用数据的效率。为了达到这个目标,我们将数据以开放平台的形式开放给需求方。例如,帮助需求方开发报表的报表开放平台,帮助需求方获取数据的自助查询平台,让需求方参与数据建…

LeetCode 1271. 十六进制魔术数字(进制转换)

1. 题目 你有一个十进制数字,请按照此规则将它变成「十六进制魔术数字」:首先将它变成字母大写的十六进制字符串,然后将所有的数字 0 变成字母 O ,将数字 1 变成字母 I 。 如果一个数字在转换后只包含 {“A”, “B”, “C”, “…

评测任务征集 | 全国知识图谱与语义计算大会(CCKS 2022)

评测任务征集全国知识图谱与语义计算大会(CCKS 2022)2022年8月25-28日,秦皇岛http://sigkg.cn/ccks2022/全国知识图谱与语义计算大会(CCKS: China Conference on Knowledge Graph and SemanticComputing)由中国中文信息…

SegmentFault 美团云采访实录

约半年前,美团悄然上线了美团云(Meituan Open Services,简称MOS),这是美团网根据自身虚拟化平台开发和运维经验开放的云计算服务,类似AWS。 美团 CEO 王兴可能是中国最知名的连续创业者,曾创办校…

开局一段扯,数据全靠编?真被一篇“神论文”气到了

文 | 苏剑林(追一科技)编 | 智商掉了一地看来以后我们看论文的时候,不仅要关心论文成绩的可复现性,还要留意它们的求和、均值、方差等有没有算错,否则真的是“无奇不有”!!这篇文章谈一下笔者被…

LeetCode 147. 对链表进行插入排序(链表)

1. 题目 对链表进行插入排序。 插入排序的动画演示如上。从第一个元素开始,该链表可以被认为已经部分排序(用黑色表示)。 每次迭代时,从输入数据中移除一个元素(用红色表示),并原地将其插入到…

征稿 | 软件学报专刊征文:知识赋能的信息系统

伴随着人工智能的浪潮,智慧信息系统的发展方兴未艾,正处于由感知智能到认知智能转变的关键时期。要实现认知智能的系统跃升,离不开知识的赋能。在数字化转型背景下,数据对象和交互方式的日益丰富和变化,对以知识图谱为…

基于Flume的美团日志收集系统(二)改进和优化

在《基于Flume的美团日志收集系统(一)架构和设计》中,我们详述了基于Flume的美团日志收集系统的架构设计,以及为什么做这样的设计。在本节中,我们将会讲述在实际部署和使用过程中遇到的问题,对Flume的功能改进和对系统做的优化。 …