word2vec应用场景_word2vec的使用参数解释和应用场景

" > corpus.txt

```

因为这些数据虽然去除了其他标签的数据,但是却把保留下来了,所以后来作者在分词程序中去除了这个标签

我在这个[网页](http://www.jb51.net/article/65497.htm)上找到了一个python去标签的简单代码。但是没有实验过,不知效果怎么样:

这段代码可以用于去除文本里的字符串标签,不包括标签里面的内容

```

import re

html='脚本之家,Python学习!'

dr = re.compile(r']+>',re.S)

dd = dr.sub('',html)

print(dd)

```

运行结果如下:

```

脚本之家,Python学习!

```

##实验

整理之后就可以在bin文件夹下运行程序了,图片和参数解释来自[这里](http://blog.csdn.net/heyongluoyao8/article/details/43488765),代码如下:

```

time ./word2vec -train text8 -output vectors.bin -cbow 1 -size 200 -window 8 -negative 25 -hs 0 -sample 1e-4 -threads 20 -binary 0 -iter 15

```

![这里写图片描述](https://img-blog.csdn.net/20150204220148669?watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvaGV5b25nbHVveWFvOA==/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/Center)

-time 会在结果前输出实验用的时间,当然如果不需要的话,可以去掉

-train 训练数据

-output 结果输入文件,即每个词的向量,也可以output为txt文件,但是txt文件没有直接用./distance

-cbow 是否使用cbow模型,0表示使用skip-gram模型,1表示使用cbow模型,默认情况下是skip-gram模型,cbow模型快一些,skip-gram模型效果好一些(0的情况跑了2个小时,1的时候跑了50分钟)

-size 表示输出的词向量维数

-window 为训练的窗口大小,8表示每个词考虑前8个词与后8个词(实际代码中还有一个随机选窗口的过程,窗口大小<=5)

-negative 表示是否使用NEG方,0表示不使用,其它的值目前还不是很清楚

-hs 是否使用HS方法,0表示不使用,1表示使用

-sample 表示 采样的阈值,如果一个词在训练样本中出现的频率越大,那么就越会被采样

-binary 表示输出的结果文件是否采用二进制存储,0表示不使用(即普通的文本存储,可以打开查看),1表示使用,即vectors.bin的存储类型

-iter 迭代次数

除了上面所讲的参数,还有:

-alpha 表示 学习速率

-min-count 表示设置最低频率,默认为5,如果一个词语在文档中出现的次数小于该阈值,那么该词就会被舍弃

-classes 表示词聚类簇的个数,从相关源码中可以得出该聚类是采用k-means

跑完后,用下面的命令启动距离计算,然后输入文字

```

./distance vectors.bin

```

至于聚类,只需要另一个命令即可:

```

./word2vec -train resultbig.txt -output classes.txt -cbow 0 -size 200 -window 5 -negative 0 -hs 1 -sample 1e-3 -threads 12 -classes 500

```

按类别排序:

```

sort classes.txt -k 2 -n > classes.sorted.txt

```

##应用

[深度学习word2vec笔记之应用篇](https://www.52ml.net/16951.html)

这篇文章介绍了word2vec如何应用在广告推荐中

#2. Tensorflow中的word2vec

现在word2vec已经集成到了tensorflow中

使用tensorflow下的word2vec模型

[官网](https://github.com/tensorflow/tensorflow/tree/master/tensorflow/models/embedding)中给的例子:

**Word2Vec Tutorial**

To download the example text and evaluation data:

```

wget http://mattmahoney.net/dc/text8.zip -O text8.zip

unzip text8.zip

wget https://storage.googleapis.com/google-code-archive-source/v2/code.google.com/word2vec/source-archive.zip

unzip -p source-archive.zip word2vec/trunk/questions-words.txt > questions-words.txt

rm source-archive.zip

```

Assuming you are using the pip package install and have cloned the git repository, navigate into this directory and run using:

```

cd tensorflow/models/embedding

python word2vec_optimized.py \

--train_data=text8 \

--eval_data=questions-words.txt \

--save_path=/tmp/

```

To run the code from sources using bazel:

```

bazel run -c opt tensorflow/models/embedding/word2vec_optimized -- \

--train_data=text8 \

--eval_data=questions-words.txt \

--save_path=/tmp/

```

我虽然跑通了程序,在tmp文件夹中也生成了几个文件,但是完全不知道怎么用。。。。。

#3. gensim的word2vec

请参考这篇教程

http://blog.csdn.net/Star_Bob/article/details/47808499

##参考

[Windows下使用Word2vec继续词向量训练](http://blog.csdn.net/heyongluoyao8/article/details/43488765)

[利用word2vec对关键词进行聚类](http://blog.csdn.net/zhaoxinfan/article/details/11069485)

https://github.com/tensorflow/tensorflow/tree/master/tensorflow/models/embedding

[深度学习word2vec笔记之应用篇](https://www.52ml.net/16951.html)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/276217.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

usb 驱动

usb 驱动学习总结&#xff1a; usb 采用分层的拓扑结构&#xff0c;金字塔型&#xff0c;最多是7层。usb 是主从结构&#xff0c;主和主或者从和从之间不能交换数据。理论上一个usb主控制器最多可接127个设备&#xff0c;协议规定每个usb设备具有一个7bit的地址&#xff0c;范围…

让Spring架构减化事务配置(转)

让Spring架构减化事务配置(转) 注&#xff1a;原文章曾发表在it168Spring颠覆了以前的编程模式&#xff0c;引入了IOC等全新的概念&#xff0c;广受大家的喜爱。目前大多数j2ee项目都已经采用Spring框架。Spring最大的问题是太多的配置文件&#xff0c;使得你不仅需要维护程序代…

面试字节跳动后的2点总结,建议收藏!

首先我来辟个谣&#xff1a;随便打开一个招聘网站&#xff0c;你会发现前端工程师的岗位需求依旧庞大&#xff0c;大厂人才奇缺&#xff0c;就业薪资起点高&#xff0c;无行业限制。&#xff08;数据来源&#xff1a;职友集&#xff09;前端开发的行业大环境行业升级&#xff0…

phpexcel中文教程-设置表格字体颜色背景样式、数据格式、对齐方式、添加图片、批注、文字块、合并拆分单元格、单元格密码保护

转载连接&#xff1a;http://www.cnblogs.com/huangcong/p/3687665.html phpexcel中文教程-设置表格字体颜色背景样式、数据格式、对齐方式、添加图片、批注、文字块、合并拆分单元格、单元格密码保护 首先到phpexcel官网上下载最新的phpexcel类&#xff0c;下周解压缩一个cla…

对比俩个字符串的相似度

package com.opslab.util.algorithmImpl; import com.opslab.util.CharsetUtil;import com.opslab.util.SysUtil; import java.io.ByteArrayInputStream;import java.io.InputStream;import java.io.UnsupportedEncodingException; /** * 对比俩个字符串的相似度 */public clas…

如何下载python2.7.16_CENTOS6.5 安装PYTHON2.7.16

前言Centos6.5默认自带python2.6.6&#xff0c;很多模块无法使用&#xff0c;建议安装2.7以后版本较为稳定&#xff0c;需要升级到2.7。一、安装过程1. 先安装相应的依赖yum -y install gcc openssl-devel bzip2-devel2. 下载软件包cd /optwget https://www.python.org/ftp/pyt…

2021年的今天,如何成为一名专业的前端工程师?

大家好&#xff0c;我是若川。今天给分享一篇来自阿里克军大佬的好文。以下是正文~如果你想成为一名专业的前端工程师&#xff0c;那么你需要了解要学什么&#xff0c;学到什么程度&#xff0c;以及如何有效地学习。大学里没有正规的前端技术课程&#xff0c;普遍缺少比较权威的…

“劣质”的PHP代码简化

下面这一小段“劣质”的PHP代码是一道简化了的测试题。这种问题就像在问&#xff1a;你该怎样优化这段代码&#xff1f;<?echo("<p>search results for query:").$_GET[query].".</p>";?>这段代码的主要问题在于它把用户提交的数据直接…

nc65右键生成菜单_DbSchema生成表单和报表,原来如此简单

DbSchema 8 for Mac是mac上一款非常实用的商业数据库ER图绘制软件&#xff0c;可以轻松的对文档进行注释或标注&#xff0c;而且Dbschema集成了SQL和数据工具&#xff0c;能生成直观的图表、PDF文件或HTML 5文档等&#xff0c;非常的实用。现在就来给大家分享DbSchema如何生成表…

Java行为参数化(一)

一.什么是行为参数化呢 说白了就是将一段行为当作参数传入一个方法中呗&#xff0c;那么这段行为是什么呢&#xff1f; 答&#xff1a;那也是一个方法咯。 Java在1.8版本引入了行为参数化的概念&#xff0c;首先&#xff0c;我们先看一小段代码 public class test { public sta…

猴子排圈求最后编号问题

转载链接&#xff1a;http://www.cnblogs.com/mztest/archive/2013/01/30/2882829.html 一群猴子排成一圈&#xff0c;按1&#xff0c;2&#xff0c;...&#xff0c;n依次编号。然后从第1只开始数&#xff0c;数到第m只,把它踢出圈&#xff0c;从它后面再开始数&#xff0c;再…

若川的2020年度总结,水波不兴

前言从2014年开始&#xff0c;每一年都会写年度总结&#xff0c;坚持了6个年头。回顾2014&#xff0c;约定2015&#xff08;QQ空间日志&#xff09;2015年总结&#xff0c;淡化旧标签&#xff0c;无惧未来&#xff08;QQ空间日志&#xff09;2016年度总结&#xff0c;毕业工作2…

sql修改表字段数据类型

--加 ALTER TABLE table2 ADD row_id bigint --删 ALTER TABLE table2 DROP COLUMN row_id --改 ALTER TABLE 你的表 ALTER COLUMN 列名 你的类型 null declare a varchar(200) select ac.name fr…

关于敏捷开发方法(Agile Software Development)的阅读笔记

对“敏捷开发”&#xff08;Agile Software Development&#xff09;这个词&#xff0c;我是在这学期邹欣老师《现代程序设计》课上第一次听到的&#xff0c;刚听到时并不知道其具体指什么&#xff0c;只是从字面上直觉其意思应该是快速开发之类的。这次从 Agile Guide 、 The …

phpbreak跳出几层循环_PHP跳出循环之“break”

前面给大家讲解了PHP控制循环语句&#xff0c;知道了&#xff0c;当我们的程序块满足一定的条件后才会跳出循环&#xff0c;而跳出循环则是使用我们的break或者continue关键字。本章&#xff0c;将会先给大家讲解“break”跳出循环。在前面的讲解PHP循环控制语句“while”循环的…

Vuex 4.0 正式发布!新年,官方生态齐聚一堂。

Vuex 4 官方版本正式发布。Vuex 4 的重点是兼容性。Vuex 4 支持 Vue 3&#xff0c;但是仍然提供了与 Vuex 3 完全相同的 API&#xff0c;因此用户可以在 Vue 3 中直接复用他们现有的 Vuex 代码。下文会把破坏性的改动列出来&#xff0c;请注意查看。在源码的 example 文件夹[1]…

原生js实现给指定元素的后面追加内容

参考链接&#xff1a;http://www.jb51.net/article/35412.htm 原生js实现给指定元素的后面追加内容 var header1 document.getElementById("header"); var p document.createElement("p"); // 创建一个元素节点 insertAfter(p,header1); // 因为js没有…

文档中根元素后面的标记格式必须正确。

文档中根元素后面的标记格式必须正确。 php或其它语言动态输出的xml&#xff0c;最开始<标记 前面有空格&#xff0c;最后面>标记 后面有 空格 导致xml解析出错 解决办法: var data:String evt.target.data;//兼容FireFox, php输出的xml data data.substr(data…

lstm数学推导_如何在训练LSTM的同时训练词向量?

你本来也不用自己手动进行词向量更新啊&#xff0c;你搞这么一出最后收敛到0那不是必然的么&#xff1f; 霍华德 老师的答案已经给你推导出来了。实际上你问的这个问题很简单——只要把Embedding层本身也当成模型参数的一部分就可以了&#xff0c;一开始不使用外部词向量&#…

Javascript在页面加载时的执行顺序(转载)

原文&#xff1a;http://dancewithnet.com/2007/03/22/order-of-execution-of-javascript-on-web/ 一、在HTML中嵌入Javasript的方法 直接在Javascript代码放在标记对<script>和</script>之间由<script />标记的src属性制定外部的js文件放在事件处理程序中&a…