谁说发 paper 一定要追快打新?2021年,研究 word2vec 也能中顶会!

495e5f36405b151d20b7d208107b0467.png

文 | jxyxiangyu

c78146c8d19a75315405ca25807bf34e.png前言8c45ba855717c1e0f5d5c8cee0b231e9.png

“小夕,小夕,你关注的任务sota又被刷新了!”

“什么?!”

还在跑实验的小夕默默流下了辛酸泪

不得不说nlp领域的发展真的太快了,炼丹师们不光要时刻关注前沿热点,还要快速做出实验,高强度堪比996:导师,臣妾真的做不到啊(っ╥╯﹏╰╥c)

正巧,小编我最近看到一篇研究词向量 word2vec 的论文,中了今年的EMNLP。What?!依稀记得头一次听说word2vec还在三年前。这么古老的东西还有人在研究吗?现在不都是XX-BERT、XX-transformer的时代了吗?

今天让我们一起来看看,到底是咋回事。

论文标题:
Analyzing the Surprising Variability in Word Embedding Stability Across Languages

论文链接:
https://arxiv.org/abs/2004.14876

715952a296d1fe1915897d3deff468b1.png词向量稳定性2bef188df6ff6429c2c378f68c3e5372.png

在介绍论文之前,先让我们来了解下词向量的稳定性。词向量的稳定性指的是一个词在不同的向量空间中的最近邻的重叠程度,常用来衡量由数据集、算法和词的属性特征的变化引起的词向量的变化。

这时候一定有小伙伴要问了,都1202年了,还有研究静态词向量的必要吗?No,no,no,如果这么想,格局就小了,我们常用的BERT、GPT这些模型都是建立在大规模语料上预训练得到的,如果面对的是小语种,没有像汉语、英语这么丰富的语料库,是很难喂饱预训练语言模型的,另外,为了某些小语种专门花费大量的资源训练预训练模型,从工业的角度来看,成本也是非常高的。这时,自然而然就会想到利用上下文无关的静态词向量来解决这类问题。

2793721b0ad6de7f9bded3dc7142bed2.png

稳定性的计算

文章研究的是在多个不同的语言中的词向量稳定性的变化,首先提出了稳定性的计算方式。给定两个向量空间集合,,那么两个向量空间的组合可以表示成,其中,,,对于某个词在向量空间,的稳定性可以用在这两个空间中最近的10个邻居的重叠百分比来表示,而在和这两个集合中,任意两个向量空间的组合下的稳定性均值,就被定义为词在这两个向量空间集合的稳定性。

举个栗子,下面的图展示的是词“rock”在三个向量空间下最近的10个邻居词,粗体表示向量空间重叠的词,可以看到 和 有6个邻居是重叠的, 、 和 、分别有7个词重叠,那么词“rock”在这三个向量空间的稳定性就是这三个值的均值(0.667)。ce291b3a50180c998fa72cda3eb758ca.png

65b56eff15f1e6374e62d500adc6bb5a.png实验1078d00b425bb43934d7c40309ff70f0.png

数据集

作者采用的是Wikipedia和Bible两个数据集,其中,Wikipedia包含40种语言,Bible包含97种语言,以及世界语言结构图谱(World Atlas of Language Structures,WALS),包含了近两千种语言属性知识。

数据集下采样

为减小不同语言数据量对词向量稳定性的影响,论文对原始的数据集做了下采样处理,具体方法是对数据集不重复地下采样(downsampling without replacement)。

为研究不同的下采样方法对稳定性的影响,用作者的话来说,希望通过下采样得到跨语言且有可比性的稳定性结果。为此,作者专门对比了可重复采样和不可重复采样两种下采样方法对稳定性的影响。

983f36740972225963c8e5b9764d89ec.png5b9a979d9db25a1826a67a2eb394f99d.png

可以看到可重复采样的方法导致下采样数据集无论采样覆盖比例如何,稳定性基本趋于一致,没有区分度,而不可重复采样的方法得到的数据集有较为明显的稳定性区分,这也是作者选择不重复下采样方法的原因。

数据集上的稳定性

作者针对Wikipedia和Bible两个数据集重叠的26种语言,研究了不同语言不同词向量生成算法数据对词向量稳定性的影响,总共三种情况:

  1. 由五个下采样的数据集训练得到的GloVe词向量的稳定性

  2. 由五个下采样的数据集训练得到的word2ve词向量的稳定性

  3. 由一个下采样的数据集随机五次训练得到的word2ve词向量的稳定性

由于Bible数据集过小,因此,只对Bible数据集研究了情况3下稳定性的分布e4ca464842a2b65584c8dc9966da38a6.png

可以看到在稳定性25%~75%之间,稳定性分布和变化较为平缓,低稳定性和高稳定性的词数量变化明显。

实验结果也表明在相同的训练数据下,不同的训练算法得到的词向量稳定性分布和变化趋于一致,相比而言,训练语料的不同对稳定性有较大的影响。因此,在对比不同语言下的词向量稳定性时,应该减小语料的内容对稳定性的影响。

为了研究同一数据集的不同上下文对研究不同语言间稳定性的影响程度,作者分别选择了圣经在德语和法语的多个不同译本,在一个下采样数据集上用五个不同的随机数种子训练生成五个word2vec词向量,并取均值作为该译本下的词向量稳定性。可以看到除个别译文外,不同译本之间的稳定性趋势基本一致,基本可以忽略相同语义的不同上下文对词向量稳定性的影响。

1f755a3abf40524909192c4097c9f1d0.png
▲不同bible译本的稳定性分布(德语)
8440940a4fa77d0f49149a2c9b0c56d3.png
▲不同bible译本的稳定性分布(法语)

回归模型

前述的实验对比了多个语言下的稳定性分布与走势,下面作者用岭回预测特定语言下的所有词的平均稳定性的方式,研究语言属性本身对词向量稳定性的影响因素。

模型的输入是特定语言的语言学特征(属性),输出是稳定性的均值。在讲特征输入模型前,作者做了相应的数据预处理,包括过滤出现频次较低的特征和属性(WALS)以及属性较少的语言,特征分组等,这里就不详细说明了。

评价指标

作者用了两种方式来评估模型:留一法交叉验证的绝对误差。选择拟合效果较好的模型,通过权重的大小来确定特征(或属性)对稳定性的贡献度程度。

实验结论

作者选择的模型达到了的和的留一法交叉验证的绝对误差,足以证明模型拟合效果非常好,相应的权重也可以表示属性对稳定性的贡献程度。下面是岭回归模型拟合后得到的属性对稳定性的贡献度权重和对特征分组的平均权重。相应地,作者还对某些属性特征做了详细的研究分析,这里不再赘述。57a03477b2f1f2aa805a0a66fc247375.png3eb9a8d0d64dc435ac20864afa5fac16.png

7bb918bcba0ce28b5debb519c2671d0c.png小结154d6b61a6e95abe33aed40af983cb4e.png

与常见的在某个任务上提模型、刷sota不同,这篇论文着眼于词向量在不同语言之间的差异的研究,本质上更像是数据分析。文章从数据采样方式入手,分别研究了数据集、训练算法对不同语言的稳定性的分布和走势的影响,并使用岭回归模型拟合了语言的属性特征对稳定性的贡献程度,分析不同属性特征对稳定性的影响。相比提出一个新的模型刷sota而言,可复现性和解释性更高,对词向量的应用有不小的贡献。

当然,这篇文章研究的是经典的静态词向量,和主流的transformer架构相比,确实显得有点“out”,但文章投了七次才中,不也证明了只要是金子都会发光吗?小编认为,谁说nlp一定要追快打新,只要是真正有益于nlp领域发展的研究工作,都值得发表,都值得中。(无卡党和少卡党狂喜bushi)

77946122931d2d4e66df0c1674ba1cb3.png
▲狂喜

1d36a5aab5a67de4e1330cc5487af9d4.png后台回复关键词【入群

加入卖萌屋NLP/IR/Rec与求职讨论群

后台回复关键词【顶会

获取ACL、CIKM等各大顶会论文集!

f6c594f2c3cda7780163236feab7803d.gif

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/477985.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

论文浅尝 | Multilingual LAMA: 探索多语言预训练语言模型中的知识

笔记整理:谭亦鸣,东南大学博士生来源:EACL‘21链接:https://aclanthology.org/2021.eacl-main.284.pdf概述本文关注将语言模型(LM)视作一个知识库,然后用于解决例如句子填空这样的NLP任务&#…

LeetCode 860. 柠檬水找零(贪心)

1. 题目 在柠檬水摊上,每一杯柠檬水的售价为 5 美元。 顾客排队购买你的产品,(按账单 bills 支付的顺序)一次购买一杯。 每位顾客只买一杯柠檬水,然后向你付 5 美元、10 美元或 20 美元。你必须给每个顾客正确找零&…

召回粗排精排-级联漏斗(下)

文 | 水哥源 | 知乎saying召回区分主路和旁路,主路的作用是个性化向上管理,而旁路的作用是查缺补漏。推荐系统的前几个操作可能就决定了整个系统的走向,在初期一定要三思而后行。做自媒体,打广告,漏斗的入口有多大很重…

学术联赛 | 运用知识图谱技术,赋能多领域应用 ——“未来杯”AI学术联赛总决赛暨颁奖典礼圆满落幕...

本文转载自公众号:AI学习社。由北京大学软件工程国家工程研究中心主办,华为终端有限公司及中软国际教育科技集团全程战略支持,STEER TECH科技平台、北京乐智元素科技有限公司、艾肯文化传媒(北京)有限公司、AI TIME承办…

LeetCode 1013. 将数组分成和相等的三个部分

1. 题目 给定一个整数数组 A&#xff0c;只有我们可以将其划分为三个和相等的非空部分时才返回 true&#xff0c;否则返回 false。 形式上&#xff0c;如果我们可以找出索引 i1 < j 且满足 (A[0] A[1] … A[i] A[i1] A[i2] … A[j-1] A[j] A[j-1] … A[A.lengt…

谷歌 | 多任务学习,如何挑选有效的辅助任务?只需一个公式!

文 | 小伟编 | 小轶前言说到多任务学习&#xff0c;大家都不陌生&#xff0c;不管是在学术界还是工业界都已经有了很多成熟的探索与应用。在理想的多任务学习中&#xff0c;各个任务对彼此应当是有益的&#xff0c;所有任务相互促进&#xff0c;从而达到超过单任务学习的效果。…

LeetCode 888. 公平的糖果交换(哈希set)

文章目录1. 题目2. 解题2.1 暴力查找2.2 哈希set1. 题目 爱丽丝和鲍勃有不同大小的糖果棒&#xff1a;A[i] 是爱丽丝拥有的第 i 块糖的大小&#xff0c;B[j] 是鲍勃拥有的第 j 块糖的大小。 因为他们是朋友&#xff0c;所以他们想交换一个糖果棒&#xff0c;这样交换后&#…

OpenKG开源系列 | 面向知识的推理问答编程语言KoPL(清华大学)

OpenKG地址&#xff1a;http://openkg.cn/tool/koplGitHub地址&#xff1a;https://github.com/THU-KEG/KoPL网站地址&#xff1a;https://kopl.xlore.cn开放许可协议&#xff1a;MIT License贡献者&#xff1a;清华大学&#xff08;曹书林、史佳欣、姚子俊、吕鑫、聂麟骁、逄凡…

前端组件化开发实践

前言 一位计算机前辈曾说过&#xff1a; Controlling complexity is the essence of computer programming.随着前端开发复杂度的日益提升&#xff0c;组件化开发应运而生&#xff0c;并随着 FIS、React 等优秀框架的出现遍地开花。这一过程同样发生在美团&#xff0c;面临业务…

LeetCode 937. 重新排列日志文件(自定义排序)

1. 题目 你有一个日志数组 logs。每条日志都是以空格分隔的字串。 对于每条日志&#xff0c;其第一个字为字母数字标识符。然后&#xff0c;要么&#xff1a; 标识符后面的每个字将仅由小写字母组成&#xff0c;或&#xff1b;标识符后面的每个字将仅由数字组成。 我们将这…

预训练时代微调新范式,高性能加速2800%,NLPer赶紧看过来!

一、导读PaddleNLP 是兼具科研学习和产业实践能力的 Python NLP 工具包&#xff0c;提供中文领域丰富的预训练模型和部署工具&#xff0c;被高校、企业开发者广泛应用。近日&#xff0c;PaddleNLP v2.1正式发布&#xff0c;为开发者带来三项重要更新&#xff1a;开箱即用的工业…

论文浅尝 | GaussianPath: 用于知识图谱推理的贝叶斯多跳推理框架

笔记整理&#xff1a;谭亦鸣&#xff0c;东南大学博士生来源&#xff1a;AAAI’21链接&#xff1a;https://ojs.aaai.org/index.php/AAAI/article/view/16565多跳推理由于对下游任务例如问答和图谱补全的可解释性受到关注。多跳推理是一个典型的顺序决策过程&#xff0c;可表述…

AllenAI 发布万能问答系统 MACAW!各类题型样样精通,性能大幅超越 GPT-3!

文 | python前言GPT-3 等超大规模预训练语言模型&#xff0c;在少监督任务&#xff08;few-shot tasks&#xff09;上取得了令人瞩目的成绩。而这篇文章中&#xff0c;AllenAI的研究员提出了大规模生成式问答模型&#xff0c;MACAW。基于多角度预训练&#xff0c;MACAW可以用于…

论文浅尝 | SMBOP: Semi-autoregressive Bottom-up Semantic Parsing

笔记整理&#xff1a;陈永锐&#xff0c;东南大学博士来源&#xff1a;NAACL 2021概述近年来语义解析的事实上的标准解码方法是使用自顶向下的深度优先遍历对目标程序的抽象语法树进行自回归解码。该工作提出了一种替代方法&#xff1a;半自回归自底向上解析器&#xff08;SMBO…

美团酒店Node全栈开发实践

前后端分离的背景 “前后端分离”显然已不是什么新鲜的话题&#xff0c;Zakas在2013年10月份就曾发表过一篇博客《Node.js and the new web front-end》讨论Node背景下新时代的前端。毫无疑问&#xff0c;Node的出现给JavaScript语言带来了新的生机&#xff0c;也使得前端开发者…

统计学习方法总结

统计学习方法总结 阅读目录(Content)0. 相关知识点0x1: 监督学习1. 模型假设空间2. 生成模型与判别模型的联系与区别 3. 学习策略4. 分类问题与回归问题5. 利用模型进行预测和分析0x2&#xff1a;模型评估与模型选择1. 训练误差与测试误差2. 过拟合与模型选择0x3&#xff1a;正…

LeetCode 997. 找到小镇的法官(图的出度和入度)

1. 题目 在一个小镇里&#xff0c;按从 1 到 N 标记了 N 个人。传言称&#xff0c;这些人中有一个是小镇上的秘密法官。 如果小镇的法官真的存在&#xff0c;那么&#xff1a; 小镇的法官不相信任何人。每个人&#xff08;除了小镇法官外&#xff09;都信任小镇的法官。只有…

哈工大|NLP数据增强方法?我有15种

文 | rumor源 | 李rumor卷友们好&#xff0c;我是rumor。十一假期过的太快了&#xff0c;不知道你们缓过来没有&#xff0c;没有的话今天我们就来一起读一篇综述缓缓&#xff0c;弥补假期没学习的遗憾。这篇40多页的综述出自哈工大车万翔老师的团队&#xff0c;一共总结了15种N…

论文浅尝 | Wordly Wise(WoW) - 用于语音视觉知识问答的跨语言知识融合模型

笔记整理: 谭亦鸣&#xff0c;东南大学博士生来源&#xff1a;NAACL’21链接&#xff1a;https://aclanthology.org/2021.naacl-main.153.pdf论文提出了一种新的知识图谱问答数据集命名为FVSQA&#xff0c;这是一种语音视觉知识问答类型的任务&#xff0c;即问题形式为音频&…

美团Android DEX自动拆包及动态加载简介

概述 作为一个android开发者&#xff0c;在开发应用时&#xff0c;随着业务规模发展到一定程度&#xff0c;不断地加入新功能、添加新的类库&#xff0c;代码在急剧的膨胀&#xff0c;相应的apk包的大小也急剧增加&#xff0c; 那么终有一天&#xff0c;你会不幸遇到这个错误&a…