word2vec应用场景_介绍Word2Vec和Glove这两种最流行的词嵌入方法背后的直觉

NLP

的首要问题就是寻求恰当的文本表示方法。

因为，

良好的文本表示形式，

是后续进一步处理的基础。近年来，词嵌入方法越来越流行，在各种各样的

NLP

任务中

得到了广泛的应用。简单而言，词嵌入是通过无监督方式学习单词的向量表示。本文将首

先回顾用向量表示文本的早期模型，并通过分析其缺陷揭示词嵌入提出的动机，

然后介绍

Word2Vec

和

Glove

这两种最流行的词嵌入方法背后的直觉。

向量空间模型

用向量来表示文本这一想法由来已久。早在

1975

年，

Salton

等就提出用向量空间模型来

表示文本，以更好地索引、搜索文档。

由于向量空间模型最初的应用场景是索引、搜索，因此更关注词和权重。由词的权重组成

向量，并使用这一向量表示整篇文档。

具体而言，假设文档由

个单词组成，

那么这篇文档就可以表示为由每个单词的权重组成

的

维向量(长度为

的数组)

，

[w1, w2, ..., wn]

。当然，为了降低维度，事先会移除一些

无关紧要的词(例如

the

、

)

。在实践中，使用一份停止词(

stop words

)列表移除常见的

无关紧要的单词。

权重的计算有很多方法，最常用的是基于词频的方法。具体而言，单词的权重由三个因素

决定：

词频(

Term Frequency

，

)

。词频的计算公式为

TF = t / m

，其中，

为单词在文档出现的

次数，

为文档的长度(总词数)

。例如，假设文档由

1000

个单词组成，其中某个单词总

共出现了

次，那么这个单词的词频就等于

3/1000.

逆向文档频率

(

Inverse Document Frequency

，

IDF

)

。

IDF

衡量单词提供的信息量，换句话

说，某个单词是否在所有文档中都很常见

罕见。这背后的直觉很简单。假设

100

篇文档

中，有

篇都包含“手机”这个单词，而只有

篇文档包含“足球”这个单词。那么，

对某篇特定文档而言，如果它同时包含“足球”和“手机”这两个单词，这篇文档更可能

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/news/560124.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

word2vec应用场景_介绍Word2Vec和Glove这两种最流行的词嵌入方法背后的直觉

相关文章

pythonflask框架_Flask框架

滑动翻页效果_Flutter实现3D效果，一个字，炫！

overleaf 插入图片_latex中插入图片

debian命令乱码_Debian 9.5 解决中文显示乱码

ssh 连接mysql_mysql命令行客户端如何通过ssh服务器连接数据库啊？

mysql 创建数据库失败_MySQL创建数据库失败

mysql 客户服务号_mysql客户端及服务端常用实用工具功能总结

MySQL8怎么设置时区为东八区_mysql时区设置为东八区

mysql网络异常_mysql运行过程中因网络或者数据库原因导致的异常

mysql撤销用户授权_mysql用户授权及撤销

js清空文本框的值_一个Vue.js实例控制字变大变小，含样式操作，flex布局。「603」...

Linux mysql.plugin_Linux下MySQL安装

mysql mybatis 工具类_我肝了一个星期，为你们整理出了mybatis程序配置教程

python access 源码_连接的微软Access数据库，这是一个轻量级的Python模块（MDB格式）...

mysql gt resource_实用干货，MYSQL这么用就对啦

python 查看当前目录_Python学习第156课--ls的运用、环境变量以及PATH

python对数组的操作_Python对数组的基本操作

python菜单函数_Python 自学笔记- 列表及其内置函数

按120分计算成绩 mysql_Mysql实用教程试卷B.doc

java double==Double_java之double类型数值的比较