word2vec应用场景_word2vec的使用参数解释和应用场景

" > corpus.txt

```

因为这些数据虽然去除了其他标签的数据，但是却把保留下来了，所以后来作者在分词程序中去除了这个标签

我在这个[网页](http://www.jb51.net/article/65497.htm)上找到了一个python去标签的简单代码。但是没有实验过，不知效果怎么样：

这段代码可以用于去除文本里的字符串标签，不包括标签里面的内容

```

import re

html='脚本之家,Python学习！'

dr = re.compile(r']+>',re.S)

dd = dr.sub('',html)

print(dd)

```

运行结果如下：

```

脚本之家,Python学习！

```

##实验

整理之后就可以在bin文件夹下运行程序了，图片和参数解释来自[这里](http://blog.csdn.net/heyongluoyao8/article/details/43488765)，代码如下：

```

time ./word2vec -train text8 -output vectors.bin -cbow 1 -size 200 -window 8 -negative 25 -hs 0 -sample 1e-4 -threads 20 -binary 0 -iter 15

```

![这里写图片描述](https://img-blog.csdn.net/20150204220148669?watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvaGV5b25nbHVveWFvOA==/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/Center)

-time 会在结果前输出实验用的时间，当然如果不需要的话，可以去掉

-train 训练数据

-output 结果输入文件，即每个词的向量，也可以output为txt文件，但是txt文件没有直接用./distance

-cbow 是否使用cbow模型，0表示使用skip-gram模型，1表示使用cbow模型，默认情况下是skip-gram模型，cbow模型快一些，skip-gram模型效果好一些(0的情况跑了2个小时，1的时候跑了50分钟)

-size 表示输出的词向量维数

-window 为训练的窗口大小，8表示每个词考虑前8个词与后8个词(实际代码中还有一个随机选窗口的过程，窗口大小<=5)

-negative 表示是否使用NEG方，0表示不使用，其它的值目前还不是很清楚

-hs 是否使用HS方法，0表示不使用，1表示使用

-sample 表示采样的阈值，如果一个词在训练样本中出现的频率越大，那么就越会被采样

-binary 表示输出的结果文件是否采用二进制存储，0表示不使用(即普通的文本存储，可以打开查看)，1表示使用，即vectors.bin的存储类型

-iter 迭代次数

除了上面所讲的参数，还有：

-alpha 表示学习速率

-min-count 表示设置最低频率，默认为5，如果一个词语在文档中出现的次数小于该阈值，那么该词就会被舍弃

-classes 表示词聚类簇的个数，从相关源码中可以得出该聚类是采用k-means

跑完后，用下面的命令启动距离计算，然后输入文字

```

./distance vectors.bin

```

至于聚类，只需要另一个命令即可：

```

./word2vec -train resultbig.txt -output classes.txt -cbow 0 -size 200 -window 5 -negative 0 -hs 1 -sample 1e-3 -threads 12 -classes 500

```

按类别排序：

```

sort classes.txt -k 2 -n > classes.sorted.txt

```

##应用

[深度学习word2vec笔记之应用篇](https://www.52ml.net/16951.html)

这篇文章介绍了word2vec如何应用在广告推荐中

#2. Tensorflow中的word2vec

现在word2vec已经集成到了tensorflow中

使用tensorflow下的word2vec模型

[官网](https://github.com/tensorflow/tensorflow/tree/master/tensorflow/models/embedding)中给的例子：

**Word2Vec Tutorial**

To download the example text and evaluation data:

```

wget http://mattmahoney.net/dc/text8.zip -O text8.zip

unzip text8.zip

wget https://storage.googleapis.com/google-code-archive-source/v2/code.google.com/word2vec/source-archive.zip

unzip -p source-archive.zip word2vec/trunk/questions-words.txt > questions-words.txt

rm source-archive.zip

```

Assuming you are using the pip package install and have cloned the git repository, navigate into this directory and run using:

```

cd tensorflow/models/embedding

python word2vec_optimized.py \

--train_data=text8 \

--eval_data=questions-words.txt \

--save_path=/tmp/

```

To run the code from sources using bazel:

```

bazel run -c opt tensorflow/models/embedding/word2vec_optimized -- \

--train_data=text8 \

--eval_data=questions-words.txt \

--save_path=/tmp/

```

我虽然跑通了程序，在tmp文件夹中也生成了几个文件，但是完全不知道怎么用。。。。。

#3. gensim的word2vec

请参考这篇教程

http://blog.csdn.net/Star_Bob/article/details/47808499

##参考

[Windows下使用Word2vec继续词向量训练](http://blog.csdn.net/heyongluoyao8/article/details/43488765)

[利用word2vec对关键词进行聚类](http://blog.csdn.net/zhaoxinfan/article/details/11069485)

https://github.com/tensorflow/tensorflow/tree/master/tensorflow/models/embedding

[深度学习word2vec笔记之应用篇](https://www.52ml.net/16951.html)

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/news/276217.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

word2vec应用场景_word2vec的使用参数解释和应用场景

相关文章

usb 驱动

让Spring架构减化事务配置(转)

面试字节跳动后的2点总结，建议收藏！

phpexcel中文教程-设置表格字体颜色背景样式、数据格式、对齐方式、添加图片、批注、文字块、合并拆分单元格、单元格密码保护

对比俩个字符串的相似度

如何下载python2.7.16_CENTOS6.5 安装PYTHON2.7.16

2021年的今天，如何成为一名专业的前端工程师？

“劣质”的PHP代码简化

nc65右键生成菜单_DbSchema生成表单和报表，原来如此简单

Java行为参数化（一）

猴子排圈求最后编号问题

若川的2020年度总结，水波不兴

sql修改表字段数据类型

关于敏捷开发方法(Agile Software Development)的阅读笔记

phpbreak跳出几层循环_PHP跳出循环之“break”

Vuex 4.0 正式发布！新年，官方生态齐聚一堂。

原生js实现给指定元素的后面追加内容

文档中根元素后面的标记格式必须正确。

lstm数学推导_如何在训练LSTM的同时训练词向量？

Javascript在页面加载时的执行顺序(转载）