论文浅尝 | 动态词嵌入

640?wx_fmt=png&wxfrom=5&wx_lazy=1


Citation: Bamler R, Mandt S. Dynamic word embeddings.InInternational Conference on Machine Learning 2017 Jul 17 (pp. 380-389).

URL:http://proceedings.mlr.press/v70/bamler17a/bamler17a.pdf


动机


语言随着时间在不断演化,词语的意思也由于文化的转变而变化。本文欲在一个时间跨度上的文本数据中,发现词语的意思和用法的变化。词嵌入模型,通过发掘词的上下文信息,将词的意思编码到向量中,本文把词嵌入模型进行推广到序列数据中(即历史文本和社交媒体上的流文本),提出了动态词嵌入模型,来挖掘单个词随着时间变化时的语义变化。


贡献


  1.  本文得出一种概率状态空间模型,使得词和其上下文词的嵌入向量都能够根据传播过程及时的发展。其泛化了skip-gram模型;动态的组织方式,使得能够进行端到端的训练,这样就可以得到连续的嵌入轨迹,而且将噪音从word-context的统计中,平滑出去,使得我们能够共享各个时间的信息。

  2.  本文还提出了两个用来过滤和平滑的黑箱可扩展推理算法。

  3. 本文还分析三个时间跨度很长的大规模文本语料,本文的方法能够自动的寻找意义变化最大的词,而且平滑的词嵌入轨迹使得我们能够评估和可视化这些动态变化,并证明本文的方法比静态的模型效果好。


模型


本文提出的 dynamic skip-gram 模型是一种结合了潜在时间序列的贝叶斯版本的 skip-gram 模型,用来发掘词嵌入向量随时间发生的改变。其中 bayesian skip-gram 模型是 dynamic skip-gram 的基础,bayesian 模型把所有的序列(句子)都认为和时间不相关,而在 dynamic 模型中,会将这些序列(句子)关联起相应的时间戳信息。最终都是计算出每个词在上下文中能够概率最大化的向量表示。

 

算法


本文讨论了两个可扩展的近似推理算法,Filtering:只使用过去的信息,在数据流形式的应用中,只能以这种方式进行。Smoothing:具有所有时间的文档序列,可以学习到更好的嵌入向量。


  • Skip-Gram Filtering:在很多应用中,数据都是流形数据,这些数据以序列的方式到达,因此,只能通过已经观测的数据序列进行建模。

  • Skip-Gram Smoothing: Filtering 的情况不同,这里的推断会基于所有时间的观测序列,而不只是对过去的观测,所以该方法拥有更平滑的轨迹和更高的概率。 由于有了所有时间的数值,变分分布就可以不在受限于时刻。通过在所有时间步上训练模型,使用黑盒变分推断和再参数化技巧,来得到所有的变分参数。


实验


本文使用了无贝叶斯估计的 skip-gram 模型(SGI),预处理初始化的 skip-gram(SGP)和 skip-gram filtering(DSG-F), skip-gram smoothing(DSG-S) 模型,进行了比对实验。以三个具有时间线的语料作为实验数据:

分别是 Google Books 语料,“State of theUnion”语料,以及 Twitter 短文。

下图展示了 Google books 中,从1850到2008年中,余弦距离变化最大的10个词的演化过程。  

640?wx_fmt=png

不同方法的词向量轨迹的平滑性,图中所示的是两个词的余弦距离和时间的关系图,函数值越大说明词越相似,能够直观的看出词义的演化:

640?wx_fmt=png

本文也对模型的泛化效果进行了评估测试,证明其在未看到的数据上表现的更好,通过分析给定时刻的(中心词,上下文词)二元组的预测概率来评估:

640?wx_fmt=png

结果如下,(值越高表示效果越好):

640?wx_fmt=png

实验表明,本文的模型(dynamic skip-gram filter,dynamicskip-gram smoothing)都能够随着时间,平滑的改变嵌入向量,并且能够更好对(词,上下文)二元组有一个较好的预测效果。本文提出的方法可以对社交媒体上数据流形式的数据进行数据挖掘,异常检测,也可以供对语言演化感兴趣的历史和社会学家使用。


论文笔记整理:李林,东南大学硕士,研究方向为知识图谱构建及更新。




OpenKG.CN


中文开放知识图谱(简称OpenKG.CN)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。

640?wx_fmt=jpeg

转载须知:转载需注明来源“OpenKG.CN”、作者及原文链接。如需修改标题,请注明原标题。


点击阅读原文,进入 OpenKG 博客。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/480750.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

滴滴 KDD 2018 论文详解:基于强化学习技术的智能派单模型

国际数据挖掘领域的顶级会议 KDD 2018 在伦敦举行,今年 KDD 吸引了全球范围内共 1480 篇论文投递,共收录 293 篇,录取率不足 20%。其中滴滴共有四篇论文入选 KDD 2018,涵盖 ETA 预测 (预估到达时间) 、智能派单、大规模车流管理等…

Keyword-BERT——问答系统中语义匹配的杀手锏

引子 问&答 是人和人之间非常重要的沟通方式,其关键在于:我们要理解对方的问题,并给出他想要的答案。设想这样一个场景,当你的女朋友or老婆大人在七夕前一晚,含情脉脉地跟你说 亲爱的,七夕快到了&…

阿里P8架构师谈:Docker简介、组成架构、使用步骤、以及生态产品

Docker简介 Docker是DotCloud开源的、可以将任何应用包装在Linux container中运行的工具。 Docker基于Go语言开发,代码托管在Github上,目前超过10000次commit。 基于Docker的沙箱环境可以实现轻型隔离,多个容器间不会相互影响;D…

研讨会 | 知识图谱前沿技术课程暨学术研讨会(武汉大学站)

知识图谱作为大数据时代重要的知识表示方式之一,已经成为人工智能领域的一个重要支撑。4月28日,“武汉大学信息集成与应用实验室”与“复旦大学知识工场实验室”联合举办“知识图谱前沿技术课程暨学术研讨会”,将结合知识图谱学界研究与业界应…

LayerNorm是Transformer的最优解吗?

本文转载自公众号“夕小瑶的卖萌屋”,专业带逛互联网算法圈的神操作 -----》我是传送门 关注后,回复以下口令: 回复【789】 :领取深度学习全栈手册(含NLP、CV海量综述、必刷论文解读) 回复【入群】&#xf…

观点 | 滴滴 AI Labs 负责人叶杰平教授:深度强化学习在滴滴的探索与实践+关于滴滴智能调度的分析和思考+滴滴派单和Uber派单对比

AI 科技评论按:7 月 29 日,YOCSEF TDS《深度强化学习的理论、算法与应用》专题探索报告会于中科院自动化所成功举办,本文为报告会第一场演讲,讲者为滴滴副总裁、AI Labs 负责人叶杰平教授,演讲题为「深度强化学习在滴滴…

消息中间件系列(二):Kafka的原理、基础架构、以及使用场景

一:Kafka简介 Apache Kafka是分布式发布-订阅消息系统,在 kafka官网上对 kafka 的定义:一个分布式发布-订阅消息传递系统。 它最初由LinkedIn公司开发,Linkedin于2010年贡献给了Apache基金会并成为顶级开源项目。Kafka是一种快速、…

丁力 | cnSchema:中⽂知识图谱的普通话

本文转载自公众号:大数据创新学习中心。3月10日下午,复旦大学知识工场联手北京理工大学大数据创新学习中心举办的“知识图谱前沿技术课程暨学术研讨会”上,OpenKG联合发起⼈、海知智能CTO丁力博士分享了以“cnSchema:中⽂知识图谱…

详解ERNIE-Baidu进化史及应用场景

一只小狐狸带你解锁 炼丹术&NLP 秘籍Ernie 1.0ERNIE: Enhanced Representation through Knowledge Integration 是百度在2019年4月的时候,基于BERT模型,做的进一步的优化,在中文的NLP任务上得到了state-of-the-art的结果。它主要的改进是…

解读 | 滴滴主题研究计划:机器学习专题+

解读 | 滴滴主题研究计划:机器学习专题(上篇) 解读 | 滴滴主题研究计划:机器学习专题(上篇) 2018年7月31日 管理员 微信分享 复制页面地址复制成功滴滴主题研究计划 滴滴希望通过开放业务场景,与…

笔记:seafile 7.x 安装和部署摘要

文章目录1. 安装1.1. 注意事项1.2. 企业微信集成并支持自建第三方应用配置1.3. 内置 Office 文件预览配置1.3.1. 安装 Libreoffice 和 UNO 库2. 主要功能2.1. 服务器个性化配置2.2. 管理员面板2.3. seafile 命令行使用教程2.3.1. ubuntu安装2.3.2. init 初始化seafile配置文件夹…

文章合集

Hi 大家好,我是陈睿|mikechen,这是优知学院的所有文章集合,专门整理这个页面,希望会对大家在浏览感兴趣文章的时候,能有更好的帮助! 这些文章的呈现,并不是按照时间轴来排序,无论是新旧文章&…

领域应用 | 阿里发布藏经阁计划,打造 AI 落地最强知识引擎

如果没有知识引擎,人工智能将会怎样?知识引擎可以把数据加工成信息,信息和现有的知识通过推理能够获得新的知识,从而形成庞大的知识网络,像大脑一样支持各种决策。你与智能音箱进行对话,背后就是基于知识引…

ACL2020 | FastBERT:放飞BERT的推理速度

FastBERT 自从BERT问世以来,大多数NLP任务的效果都有了一次质的飞跃。BERT Large在GLUE test上甚至提升了7个点之多。但BERT同时也开启了模型的“做大做深”之路,普通玩家根本训不起,高端玩家虽然训得起但也不一定用得起。 所以BERT之后的发展…

2017年双十一最全面的大数据分析报告在此!+2018年双十一已经开始,厚昌竞价托管教你如何应对流量流失?+2019年双十一大战一触即发:阿里、京东都有哪些套路和玩法

首先说一个众所周知的数据:2017年双十一天猫成交额1682亿。 所以今天,从三个角度带你一起去探索1682亿背后的秘密: 1、全网热度分析:双十一活动在全网的热度变化趋势、关注来源、媒体来源以及关联词分析。 2、各平台对比分析&…

阿里P8架构师谈:大数据架构设计(文章合集)

架构师进阶有一块很重要的内容,就是需要掌握大数据的架构设计,主要涵括: MySQL等关系式数据库,需要掌握数据库的索引、慢SQL、以及长事务的优化等。 需要掌握非关系式数据库(NoSQL)的选型,以及…

论文浅尝 | 利用 RNN 和 CNN 构建基于 FreeBase 的问答系统

Qu Y,Liu J, Kang L, et al. Question Answering over Freebase via Attentive RNN withSimilarity Matrix based CNN[J]. arXiv preprint arXiv:1804.03317, 2018.概述随着近年来知识库的快速发展,基于知识库的问答系统(KBQA )吸引了业界的广…

positional encoding位置编码详解:绝对位置与相对位置编码对比

本文转载自公众号“夕小瑶的卖萌屋”,专业带逛互联网算法圈的神操作 -----》我是传送门 关注后,回复以下口令: 回复【789】 :领取深度学习全栈手册(含NLP、CV海量综述、必刷论文解读) 回复【入群】&#xf…

## 作为多目标优化的多任务学习:寻找帕累托最优解+组合在线学习:实时反馈玩转组合优化-微软研究院+用于组合优化的强化学习:学习策略解决复杂的优化问题

NIPS 2018:作为多目标优化的多任务学习:寻找帕累托最优解多任务学习本质上是一个多目标问题,因为不同任务之间可能产生冲突,需要对其进行取舍。本文明确将多任务学习视为多目标优化问题,以寻求帕累托最优解。而经过实验…

手把手教你求职进入BAT

“ 最近利用部分的时间,帮助了好几位读者朋友进入了自己心仪的公司,以下我会谈到,求职简历方面给到他们的建议。 如果你本身具备很强的实力,不要因为对求职简历细节不重视,反而痛失良机。 求职加薪,除了…