gram矩阵_Skip-gram

1c1e69403eda69a463e8e68eddbb1548.png

Skip-gram

标签(空格分隔):NLP

0a364bd08287968757a964c3a878c576.png

一. skip-gram和cbow的对比

skip-gram与cbow相比,好处在于对于不常用的词,skip-gram的效果要更好;

举个简单的例子,一个句子'w1w2w3w4',window_size=1;

对于cbow,模型学习的是预测给定上下文后出现word的概率,或者去最大化下面式子的概率值:

但这对不常见的单词来说是个问题,因为不常见的单词在给定的上下文中不经常出现,结果模型会分配给它们很小的概率。

对于skip-gram,模型学习的是给定单词后去预测上下文的概率,或者去最大化下面式子的概率值:

在这个例子中,两个单词(频繁出现的和不频繁出现的) 被相同的对待。均被当作是单词和上下文两个观测。因此,这个模型会把罕见的单词也学到。

二. skip-gram

主要思想

  1. 目标:skip-gram目标是通过最优化邻域保留的似然目标,来学习单词的连续特征表示
  2. 假设:skip-gram的目标是基于分布假说,其中陈述的是近似上下文中的单词有具有近似含义的趋势。那就是说,相似的单词有着出现在相似邻域内的趋势;
  3. 算法:遍历文档中的每个单词,对于每个单词,其力求去嵌入单词的特征,以能够去预测邻近的单词(单词在上下文单词的窗口里)。通过使用带负采样的SGD梯度下降,来优化似然函数,学习单词的特征表示

skip-gram公式化的表述

skip-gram通过最优化似然目标函数,来学习预测给定单词后的上下文。假设现在我们有一个句子:

'I am writing a summary for NLP.'

这个模型目的是,根据给定目标word ‘summary’,来预测window_size=2窗口中的上下文单词;

'I am [] [] summary [] [].'

接着模型试着去最优化似然函数:

事实上,给出一个句子,skip-gram可以做到。相反的,把每个单词都当作一个目标word,并且预测上下文word。所以这个目标函数可以表示为:

给它一个更正式的表述:给出一组单词w和它们的上下文c. 我们考虑条件概率是P(c|w), 并且给出预料,目标是找出条件概率

的参数
,以至于最大化语料出现的概率:

或者,我们也可以将其写为:

其中D是我们提取的所有单词和上下文的集合,接下来通过log函数来进行简化:

那么接下来的问题就是如何来定义

,其必须满足如下两个条件:

一是

二是

一个自然的方法是使用softmax函数,所以可以这样来定义:

是word w和w的上下文单词c的向量化表示,U表示所有可用上下文的集合。

在这篇文章中,我们假设目标单词w和上下文c来自不同的词汇表矩阵V和U,因此,来自单词word的'lunch'和来自单词上下文的'lunch'是不同的。其中一个动机是每个单词在模型中充当了两种角色,其中一个作为目标单词,而另一个作为上下文单词。这就是为什么我们需要两个单独矩阵的原因,注意到它们必须是相同的维度:V * k,其中k是一个超参数,表示的是每一个词向量的维数。我们想要设置参数

,从而使得函数
最大化。

这里我们用内积(inner product)来衡量

两向量间的相似性,如果它们有近似的含义,那么就代表这它们有着近似的向量化表示,那么它们的共现概率
也会比较高。

(note:将余弦相似度和内积来作为距离度量的对比,cos距离只关心角度的区别,而内积关心的是角度和大小。如果你归一化了你的数据使得它们有相同的大小,那么这两种方法就没有区别了)

代入我们的定义

,可以把目标函数表示为:

fbab40ae544cf2039d833f2bd48865a6.png

然而这个目标函数计算起来太过于复杂,因为其表示为log(sum),故计算目标函数的代价会比较大。

在考虑所有word的上下文的情况下,其时间复杂度为O(|Vocab|)

为什么更prefer选择在求和里面取log,而不是在求和外面取log

经常我们选择在求和里面取log而不在外面。当你想做优化时,log和sum函数是一部分功能。

这就表示在某个点处,你需要把函数的梯度设为0,导数是线性的计算,所以当你需要求log(sum)时,和的导数就是导数的和。对比之下,根据链式法则,和的log的导数,求得为如下形式:

1/(your sum)⋅(derivative of the sum)

特别是当分析的时候, 找到该函数的0可能是一个具有挑战性的任务。另一方面,因为这个过程的计算代价很大,在求和外的log常常需要近似的来进行计算,例如使用Jensen不等式来进行近似。

现在,开始重新构造目标函数并且对其近似:

负采样--skipgram model

在进行skip-gram模型的推导之前,我们假定(w,c)在训练数据集中是一个词与其上下文词的对,那么

的共现概率应该很大。现在可以思考一个问题:当共现概率
比较大时,在训练数据中,它们是不是一个单词及单词的上下文对?按照这种方式进行思考,我们提出了二元分类问题:

表示来自上下文语料库的单词对(w,c)的共现概率,
表示来自不同语料库的单词对(w,c)共现概率。

和以前一样,假设有参数

控制分布
,因为它是一个二分类的问题,故我们可以使用sigmoid函数来定义它:

现在的目标变成了寻找参数

来最大化如下目标函数:

b15e3614ad9ef9d66d951fef1a0a1eea.png

其中

是由不在语料库中的词对(w, c)随机组成,我们将(w, c)这个不在语料库中的词对称为负采样(源于
的采样过程是对负样本进行随机采样)。下面有几个点需要注意:
  1. 1-
    =
  2. 该目标函数看起来和逻辑回归的目标函数非常相似;
  3. 避免了log(sum)的计算;

通常情况下:

,所以我们为每个数据样本取k个负样本。由原始论文中,对于小型训练数据集,作者建议k值取在5--20之间;对于大型训练数据集,作者建议k值取在2--5之间。

因此如果我们对每个数据样本取k个负样本,并且通过N(w)来表示这些负样本。那么目标函数可以表示为:

SGD for skip-gram objective function

9f20de7c0b56a13dab4725881b1eb0f6.png

代码实现细节

  • 动态窗口大小:使用的窗口大小是动态的,参数k表示最大窗口大小。对于语料库中的单词,窗口大小从[1,k]均匀采样;
  • 二次采样和稀有词修剪:关于二次采样和下采样

References

https://blog.csdn.net/Jay_Tang/article/details/105577295 唐兄的blog

http://www.davidsbatista.net/blog/2018/12/06/Word_Embeddings/

https://www.quora.com/Why-is-it-preferential-to-have-the-log-inside-the-sum-rather-than-outside

- END -

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/336199.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

C++ 11 深度学习(十五)多线程

线程创建 方式一:调用函数 #include<thread>void CreateThread() {int a100;cout<<"This is Thread: "<<a<<endl; }int main() {thread Threadone(CreateThread);//join是一种阻塞的方式&#xff0c;需要子线程处理完毕之后&#xff0c;…

计算机的好处和坏处的英语作文,电脑的利弊英语作文

电脑的利弊英语作文在学习、工作或生活中&#xff0c;大家都写过作文吧&#xff0c;通过作文可以把我们那些零零散散的思想&#xff0c;聚集在一块。那么你有了解过作文吗&#xff1f;下面是小编为大家整理的电脑的利弊英语作文&#xff0c;希望能够帮助到大家。Computer is in…

servlet容器_SpringBoot是否内置了Servlet容器?

SpringBoot是否内置了Servlet容器&#xff1f;SpringBoot内置了Servlet容器&#xff0c;这样项目的发布、部署就不需要额外的Servlet容器&#xff0c;直接启动jar包即可。SpringBoot官方文档上有一个小章节内置servlet容器支持用于说明内置Servlet的相关问题。在SpringBoot源码…

计算机专业开学要带电脑吗,大学上课要带电脑吗

大学刚开学&#xff0c;上课的时候学生们要不要带电脑呢&#xff0c;想必这个问题一直对还没进入大学的准大学生来说很困扰&#xff0c;下面是小编整理的详细内容&#xff0c;一起来看看吧&#xff01;大学上课要带电脑吗大学上课能否带电脑需要看老师的要求。大学课程书本知识…

突然讨厌做前端,讨厌代码_不要讨厌HATEOAS

突然讨厌做前端,讨厌代码或我如何学会不再担心和爱HATEOAS REST已成为实现Web服务的事实上的解决方案&#xff0c;至少已成为一种流行的解决方案。 这是可以理解的&#xff0c;因为REST在使用HTTP规范时提供了一定程度的自我文档。 它经久耐用&#xff0c;可扩展&#xff0c;并…

【WebRTC---进阶篇】(三)各流媒体服务器的比较

多人音视频架构 Mesh方案 多对多大多进行P2P,在国内P2P直连穿越会出现很大问题。 MCU方案 客户端连接后,对应每个终端都有一个模块进项上传。再将音视频进行拆分解码。进行混屏,压缩编码分别推动给每个终端。 SFU方案 sfu不进行编解码,只是进行转发。只对订阅的终端进行…

汇编 cmp_汇编复习

第一章计算机组成五部分&#xff1a;&#xff08;运算器、控制器&#xff09;、存储器、输入/输出设备↑↑ CPU ↑↑ ↑内存↑三条总线&#xff1a;控制总线、地址总线、数据总线不同进制及BCD码的转换特殊ascll ‘0’~‘9’—— 30H ~ 39H‘A’~‘F’—— 41H ~ 46H回车 —— …

junit5和junit4_JUnit 5 –设置

junit5和junit42015年11月&#xff0c; JUnit Lambda团队展示了他们的原型 。 此后&#xff0c;该项目更名为JUnit 5&#xff0c;并于2016年2月发布了Alpha版本。我们将在一系列简短文章中进行探讨&#xff1a; 建立 基本 建筑 条件 注射 … 本节讨论JUnit 5的设置&…

markdown 生成目录_github上如何为markdown文件生成目录

写在前面熟悉markdown都知道可以使用[TOC]自动生成markdown文件的标题目录&#xff0c;比如在typora&#xff0c;vscode(需要插件)等本地编辑器中&#xff0c;或者在CSDN等网页编辑器中&#xff0c;但是github却不支持[TOC]标签&#xff0c;至于为什么不支持感兴趣的可以深入搜…

【WebRTC---进阶篇】(五)mediasoup的信令系统

mediasoup demo分析 app 客户端部分 broadcasters 推拉流部分 server 服务端部分 config.js 相当于一个配置文件&#xff0c;获取一些基本配置信息。获取的信息来交给server.js。 server.js 先从config.js获取信息&#xff0c;然后启动HTTPS webSocket服务等&#xff0c;…

axure html尺寸,axure怎么确定尺寸

回答&#xff1a;您好如做的是室内设计的话&#xff0c;那么来说可能会些参数提供给您的(例如长宽高)如果没有参数的话&#xff0c;只要把比例做好就可以了。只要比例做好了&#xff0c;东西看起来就自然像。至于教程的话&#xff0c;一般录制教程前都会有做好准备的&#xff0…

exe打包工具哪个最好_为你的 Python 程序写个启动工具箱

到目前为止&#xff0c;公众号已经介绍了不少图形界面的软件&#xff0c;比如猜数游戏、PDF阅读器、贪吃蛇游戏、天气查询软件、PDF 阅读器等。为了方便他人使用&#xff0c;我们常把图形界面打包成 exe 文件。但是如果我们只是为了自己使用方便的话&#xff0c;我们有必要把程…

【WebRTC---进阶篇】(六)SELECT网络模型

select函数原型 int WSAAPI select(_In_ int nfds,_Inout_opt_ fd_set FAR * readfds,_Inout_opt_ fd_set FAR * writefds,_Inout_opt_ fd_set FAR * exceptfds,_In_opt_ const struct timeval FAR * timeout); 函数功能:监视多个文件描述符的状态变化,在IO中负责IO的第一步…

计算机管理没有打印机列队,在Windows清除打印队列如果打印机被卡住,也没有打印输出...

我相信自己已经勾起回忆一拉似曾相识 &#xff0c;右侧的主题&#xff1f; 我们每个人&#xff0c;在一段时间或其他&#xff0c;都在打印过程中面临的问题&#xff0c;特别是给打印命令&#xff0c;并打印输出不休后等待。 无论是在家里还是办公室里&#xff0c;那就是我们所有…

gatling 使用_使用Gatling + Gradle + Jenkins Pipeline为您的JAX-RS(和JavaEE)应用程序进行连续压力测试...

gatling 使用在这篇文章中&#xff0c;我将解释如何使用Gatling项目为您的JAX-RS Java EE端点编写压力测试&#xff0c;以及如何将它们与Gradle和Jenkins Pipeline集成&#xff0c;因此&#xff0c;除了进行简单的压力测试外&#xff0c;您还可以使用以下方法&#xff1a; 连续…

java comparator_【面试题】Java必考面试题全集(15)

Java基础面试题(15)1&#xff1a;Comparator 与Comparable 有什么不同&#xff1f;2&#xff1a;Object中有哪些方法&#xff1f;3&#xff1a;说下jdk8中的一些新特性4&#xff1a;在64 位 JVM 中&#xff0c;int 的长度是多数&#xff1f;5&#xff1a;java每改一点都需要重新…

px是什么意思计算机二级,px是什么意思?照片中的px是什么的缩写?

px是什么意思?px(Pixel&#xff0c;像素)是可以在数字显示设备上显示和表示的数字图像或图形的最小单位。像素是数字图形中的基本逻辑单元。将像素组合在一起以在计算机显示器上形成完整的图像&#xff0c;视频&#xff0c;文本或任何可见的东西。像素也称为图像元素。若把影像…

java 交替_Java 8:使用交替接口公开的类型安全地图生成器

java 交替动态展示您的课程 当我还是Java新手时&#xff0c;我记得当时以为应该有一种方法可以删除或隐藏我不想公开的类中的方法。 就像用private方法或类似方法覆盖public方法一样&#xff08;哪种情况是不可能的&#xff0c;也不应该是不可能的&#xff09;。 显然&#xff…

ieee期刊_论文绘图神器来了:一行代码绘制不同期刊格式图表,哈佛博士后开源...

贾浩楠 发自 凹非寺量子位 报道 | 公众号 QbitAI「一篇论文投多个期刊&#xff0c;每个期刊对图表格式要求不一&#xff0c;同一组数据要用多种工具分别绘图。」不光是你&#xff0c;哈佛大学天文研究所的博士后&#xff0c;也不堪忍受论文重复绘图之苦。他的解决办法是&#x…

微课与计算机技术的论文,微课在高校计算机教学的运用论文

微课在高校计算机教学的运用论文摘要&#xff1a;现代信息社会不断发展进步&#xff0c;高校计算机教学也面临着复杂的形势&#xff0c;为全面提高计算机教学质量&#xff0c;提升学生的专业素质及综合能力&#xff0c;应当微课加以科学化应用。本文基于微课的内涵及应用意义出…