Word2Vec学习笔记（五）——Negative Sampling 模型(续)

Word2Vec学习笔记（五）——Negative Sampling 模型(续)

news/2025/4/27 16:42:33/文章来源:https://blog.csdn.net/chunyun0716/article/details/51727865

本来这部分内容不多，是想写在negative sampling 中和cbow一起的，但是写了后不小心按了删除键，浏览器直接回退，找不到了，所以重新写新的，以免出现上述情况

(接上)

三、Negative Sampling 模型——Skip-gram

这部分内容并不多，与cbow相比，只是目标函数有所变化，推导过程这里就略过。总的来说，就是将目标函数取最大似然，然后利用SGD方法求出词向量和最优参数。
目标函数如下所示：

G = \prod w \in C g (w)

$G = \prod_{w \in \mathcal{C}} g(w)$
其中，

g(w) $g(w)$ 可以改写成如下形式：

g (w) = \prod u \in c o n t e x t (w) g (u)

$g(w)=\prod_{u \in context(w)} g(u)$

g(u) $g(u)$ 表示如下：

g (u) = \prod z \in {u} \cup N E G (u) p (z | w)

$g(u) = \prod_{z \in \{u\} \cup NEG(u)} p(z|w)$
其中，

NEG(u) $NEG(u)$ 表示在处理词

u $u$ 时产生的负样本集合。

p(z|w) $p(z|w)$ 如下：

p (z | w) = {σ (v (w) T θ z), 1 - σ (v (w) T θ z), L u (z) = 1 L u (z) = 0

$p(z|w) = \Bigg \{ \begin{array}{ll} \sigma(\boldsymbol{v(w)}^T \theta^z), & L^u(z) = 1\\ 1-\sigma(\boldsymbol{v(w)}^T \theta^z), & L^u(z) = 0 \end{array}$
将以上式子合并之后就可以得到最终的目标函数：

G = \prod w \in C \prod u \in c o n t e x t (w) \prod z \in {u} \cup N E G (u) σ (v (w) T θ z) L u (z) (1 - σ (v (w) T θ z)) L u (z)

$G = \prod_{w \in \mathcal{C}}\prod_{u \in context(w)}\prod_{z \in \{u\} \cup NEG(u)} \sigma(\boldsymbol{v(w)}^T \theta^z)^{L^u(z)}(1-\sigma(\boldsymbol{v(w)}^T \theta^z))^{L^u(z)}$
然后取

G<script type="math/tex" id="MathJax-Element-11">G</script>的最大似然对数，求目标函数的最优化。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/news/576612.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

ElasticSearch基本查询一（英文分词）

ElasticSearch基本查询一（英文分词）

废话不多说首先准备数据，我们先添加几个文档 PUT /lib3/user/1 { "name" : "zhaoliu","address" :"hei long jiang sheng tie ling shi","age" : 50,"birthday" : "1970-12-12","inte…

阅读更多...

HDU1071_数学几何

HDU1071_数学几何

题目大意： 给你三个点p1,p2,p3,p1是最高点，然后算出面积。解题思路： 我的解题思路有点水，就是直接求抛物线系数，直线系数，最后求积分搞定e.尽量少用中间变量吧。代码有点丑。虽然这道题目是1a，…

阅读更多...

机器学习笔记（十一）——逻辑回归

机器学习笔记（十一）——逻辑回归

一、引言虽然说是逻辑回归，其实既可以用它做回归，也可以用它做分类。一般我们从最简单的二分类问题开始了解他，当然也可以做多分类。二、Logistic Regression 的一般步骤找一个合适的假设构造损失函数让损失函数最小，求出对应…

阅读更多...

ElasticSearch vs. Solr

ElasticSearch vs. Solr

为何日志服务商Loggly选择ElasticSearch而非Solr. 原文链接: http://loggly.wpengine.com/bl... 在Gen2产品的早期阶段, 我们事实上是失败的, 这促使我们重新审视我们现有的技术栈. 我们仔细分析系统中的每个独立的组件,并记录下来, 当然其中也包括构成我们核心功能的搜索引擎技…

阅读更多...

android 工程结构，它到底是怎么运行的。

android 工程结构，它到底是怎么运行的。

为了帮助理解，我决定先上传一个工程截图，这个是我做的一个小作业，3、4个小时完成，没什么含金量，就是交差用的，这里给大家做个模板吧。我把一个工程分6个部分，如左面的图所示，然后…

阅读更多...

为什么ElasticSearch应用开发者需要了解cluster state

为什么ElasticSearch应用开发者需要了解cluster state

原文链接: https://www.loggly.com/blog/p... 在前面的文章(ES vs Solr)中我们提到, ES构建了Loggly的很多核心功能. 在把这项通用搜索技术用于我们的日志管理系统, 并为超过5000多客户提供准实时服务的过程中, 我们在技术上成长颇多. 按照我们对开源社区的尊重, 在此希望能把我…

阅读更多...

给 MySQL 增加 Sequence 管理功能

给 MySQL 增加 Sequence 管理功能

-- Sequence 管理表 DROP TABLE IF EXISTS sequence; CREATE TABLE sequence ( name VARCHAR(50) NOT NULL, current_value INT NOT NULL, increment INT NOT NULL DEFAULT 1, PRIMARY KEY (name) ) ENGINEInnoDB; -- 取当前值的函数 DROP FUNCTION IF EXISTS currval; DE…

阅读更多...

最优化学习笔记（六）——牛顿法性质分析

最优化学习笔记（六）——牛顿法性质分析

一、牛顿法存在的问题在单变量的情况下，如果函数的二阶导数f′′<0，牛顿法就无法收敛到极小点。类似的，在多变量的情况下，目标函数的hessian矩阵F(x(k))非正定，牛顿法的搜索方向并不一定是目标函数值的下降方向。甚…

阅读更多...

从FLC中学习的设计模式系列-创建型模式(3)-工厂方法

从FLC中学习的设计模式系列-创建型模式(3)-工厂方法

工厂方法是一组方法， 他们针对不同条件返回不同的类实例，这些类一般有共同的父类。工厂方法模式来自： http://zh.wikipedia.org/wiki/工厂方法模式工厂方法模式是一种面向对象的设计模式。通过调用不同的方法返回需要的类，而不…

阅读更多...

Elasticsearch索引的数据存储路径是如何确定的

Elasticsearch索引的数据存储路径是如何确定的

Elasticsearch中，在node的配置中可以指定path.data用来作为节点数据的存储目录，而且我们可以指定多个值来作为数据存储的路径，那么Elasticsearch是如何判断应该存储到哪个路径下呢？今天我就记录一下这个问题。 Elasticsearch的索…

阅读更多...

带分页码的分页算法

带分页码的分页算法

int start 1, end 10;//如果总页数小于结束页码if (PageCount < end){//则结束页码为总页数end PageCount;}else{//当前页大于5后开始重新计算起始页,否则起始页为1start PageIndex > 5 ? PageIndex - 5 : start;//起始页码加9减去总页数,用于查看是否超过了总页数i…

阅读更多...

最优化学习笔记（七）——Levenberg-Marquardt修正（牛顿法修正）

最优化学习笔记（七）——Levenberg-Marquardt修正（牛顿法修正）

上节末尾谈到牛顿法中隐含的另外一个问题在于hessian矩阵可能不是正定的。因此，d(k)−F(x(k))−1g(x(k))\boldsymbol{d}^{(k)} = -\boldsymbol{F}(\boldsymbol{x}^{(k)})^{-1}\boldsymbol{g(x^{(k)})} 可能不会是下降方向。Levenberg-Marquardt修正可以解决这个问…

阅读更多...

Elasticsearch内存

Elasticsearch内存

核心概念基于LuceneJava应用内存使用分析 Lucene的内存消耗倒排索引。（堆内存） Lucene中，索引是存储在磁盘中，一个索引（Index）由多个段（Segment）组成。当启动IndexSearcher时&…

阅读更多...

Canal数据堆积

Canal数据堆积

记录一下canal的问题。数据同步一直使用阿里开源的canal，最近使用过程中遇到一些问题，在这里记录一下。原因我们使用canal监听MySQL，然后通过client获取发送到mq（自定义格式）。最近数据组的同事批量更新了一次数据…

阅读更多...

最优化学习笔记（八）——共轭方向法

最优化学习笔记（八）——共轭方向法

从这节开始，将学习共轭方向法的相关内容，本篇先做一个简短的开篇。共轭方向法的计算效率不如之前的牛顿法，但是也优于最速下降法。它有以下优势： 对于n维二次型问题，能够在n步之内得到结果；作为共轭方向的典型代表&am…

阅读更多...

解决PhoneGap在Android手机上的全屏问题

解决PhoneGap在Android手机上的全屏问题

目前，结合PhoneGap 框架使用HTML5JavaScriptCSS3开发Android或IOS系统上的应用和游戏已经成为可能性，这两天自己使用HTML5开发了一款小型悠闲游戏，使用PhoneGap打包成APK运行在Android手机上，却遇到不能全屏，想了好久&…

阅读更多...

ES学习笔记之-ClusterState的学习

ES学习笔记之-ClusterState的学习

前面研究过ES的get api的整体思路，作为编写ES插件时的借鉴。当时的重点在与理解整体流程，主要是shardOperation()的方法内部的调用逻辑，就弱化了shards()方法。实际上shards()方法在理解ES的结构层面，作用更大一些。我们还是从get…

阅读更多...

最优化学习笔记（九）——基本的共轭方向算法

最优化学习笔记（九）——基本的共轭方向算法

一、基本共轭方向算法对于n维二次型函数的最小化问题： f(x)=12xTQx−xTb f(x)=\frac{1}{2}\boldsymbol{x^TQx-x^Tb}其中，QQT>0,x∈Rn。因为Q>0,所以函数f有一个全局极小点，可以通过求解Qx=b得到。基本共轭方向算法给定初始点x(0)和一组关于Q共轭的方向…

阅读更多...

HTML简单实例加表单的显示效果

HTML简单实例加表单的显示效果

HTML可以说是一种十分简单的标记语言，但是对于Web开发还是必不可少的，所以对HTML的标记进行适当的了解还是十分有必要的。下面我们来演示一下基本的HTML效果和一些简单的标签，以及在表单界面的各种提交方式。首先是HTML的常用简单标签。 &l…

阅读更多...

机器学习笔记（十二）——马尔科夫模型

机器学习笔记（十二）——马尔科夫模型

马尔科夫模型是一种概率图模型，它描述了一类重要的随机过程(随机过程又称为随机函数，是随时间而随机变化的过程)。我们常常需要考察一个随机变量序列，这些随机变量序列并不是相互独立的，每个随机变量的值都依赖于这个序列前边的状…

阅读更多...

最新文章