word2vec训练词向量 python_使用Gensim word2vector训练词向量

注意事项

Skip-Gram models:输入为单个词,输出目标为多个上下文单词;

CBOW models:输入为多个上下文单词,输出目标为一个单词;

选择的训练word2vec的语料要和要使用词向量的任务相似,并且越大越好,论文中实验说明语料比训练词向量的模型更加的重要,所以要尽量收集大的且与任务相关的语料来训练词向量;

语料小(小于一亿词,约 500MB 的文本文件)的时候用 Skip-gram 模型,语料大的时候用 CBOW 模型;

设置迭代次数为三五十次,维度至少选 50,常见的词向量的维度为256、512以及处理非常大的词表的时候的1024维;

模型训练:

LineSentence(inp):格式简单:一句话=一行; 单词已经过预处理并被空格分隔。

size:是每个词的向量维度;

window:是词向量训练时的上下文扫描窗口大小,窗口为5就是考虑前5个词和后5个词;

min-count:设置最低频率,默认是5,如果一个词语在文档中出现的次数小于5,那么就会丢弃;

workers:是训练的进程数(需要更精准的解释,请指正),默认是当前运行机器的处理器核数。这些参数先记住就可以了。

sg ({0, 1}, optional) – 模型的训练算法: 1: skip-gram; 0: CBOW

alpha (float, optional) – 初始学习率

iter (int, optional) – 迭代次数,默认为5

model=Word2Vec(LineSentence(inp),size=400,window=5,min_count=5,workers=multiprocessing.cpu_count())

model.save(outp1)

#不以C语言可以解析的形式存储词向量

model.wv.save_word2vec_format(outp2,binary=False)

638cdc1c1079

模型使用:

638cdc1c1079

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/427242.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

python可以开发exe软件吗_python能开发exe软件吗

pyinstaller将Python脚本打包成exe软件,使在没有Python环境的机器上运行最新版是pyinstaller 3.1.1。支持python2.7和python3.3。 可运行在Windows,Mac和Linux操作系统下。(推荐学习:Python视频教程)但它不是跨编译的,也就是说在W…

mysql参数化查询为什么可以实现_为什么参数化SQL查询可以防止SQL注入?

SQL 语句文本对于数据库来说,是一种指令,与 Shell 中输入的一条条命令行很类似。我们在 SQL 中混入的各种值就是操作的参数。考虑一个 WHERE user_id 10 的筛选,WHERE 的条件包含两个部分:按用户筛选,以及用户 id 的值…

HDU5923-Prediction-有继承味道的并查集

目录 目录思路:(有任何问题欢迎留言或私聊 && 欢迎交流讨论哦 目录 题意:传送门 原题目描述在最下面。  有一个n个节点m条边的无向图和一个m个节点的有根树(根为1)。树上每个节点和图中的某些边一一对应。  每次询问给一个树的点的…

bind安装和主要配置

1 yum -y install bind bind-chroot 2rpm -qa|grep bind,查看安装状态 3service named start服务启动 4主配置文件name.conf Option{} 整个bind的全局选项 Logging{}日志输出选项 Zong 根域 这节比较简单,随便看看即可,持续更新bind相关知识…

为什么火狐浏览器中点击按钮失效_各种浏览器审查、监听http头工具介绍

一、谷歌内置的审查工具(v17.0)。右键点击审查(CtrlShirtAlt)浏览器下方会出现审查框,刷新网页就会出现下图所示,先后点击“netword”-->在下方选中资源(如下图的1.php)-->点击headers二、httpwatch。ShirtF2打开httpwatch点击Record按钮&#xff…

RabbitMQ/pika模块

简介 MessageQueue用于解决跨进程、跨线程、跨应用、跨网络的通信问题。 RabbitMQ使用erlang开发,在windows上使用时要先安装erlang。 官方的示例比较容易理解,可以点这里去看看。 结构 生产者 ---> exchange ---> queue ---> 消费者。 生产者负…

java 对象流_java 对象流的简单使用

对象的输入输出流的作用: 用于写入对象 的信息和读取对象的信息。 使得对象持久化。ObjectInputStream : 对象输入流ObjectOutPutStream :对象输出流简单的实例1 importjava.io.File;2 importjava.io.FileInputStream;3 importjava.io.FileOutputStre…

centos搭建ftp服务器

1安装vsftpd 2备份配置文件 3修改配置文件 vi /etc/vsftpd/vsftpd.conf anonymous_enableNO #允许匿名用户访问为了安全选择关闭 local_enableYES # 允许本地用户登录 write_enableYES # 是否允许写入 local_umask022 # 本地用户上传文件的umask dirmessage_enableYES #为YES…

ihtml2document能不能根据id获取dom_一段监视 DOM 的神奇代码

作者:Eddie Aich翻译:疯狂的技术宅原文:https://dev.to/eddieaich/spy-on-the-dom-3d47未经允许严禁转载通过使用此模块,只需将鼠标悬停在浏览器中,即可快速查看DOM元素的属性。基本上它是一个即时检查器。将鼠标悬停在…

let 和const

let 命令 es6新增了let命令,用于声明变量,与var用法类似,但是使用let声明变量只在它所在的块内有效,而var则是定义的全局变量 {let a10;var b1; } a //a is not defined,外部的a不能访问到上面块中定义的a变量 b //1let不存在…

centos7搭建apache服务器(亲测可用)

1安装apache yum install httpd httpd-devel -y 2开启服务器 systemctl start httpd.service 3开机自启 systemctl enable httpd.service 4关闭防火墙 5端口访问 6修改vi /etc/httpd/conf/httpd.conf,替换 7查看selinux 也可以不修改,放入/var/www/h…

java ssl 双向认证_Java实现 SSL双向认证

我们常见的SSL验证较多的只是验证我们的服务器是否是真实正确的,当然如果你访问的URL压根就错了,那谁也没有办法。这个就是所谓的SSL单向认证。但是实际中,我们有可能还会验证客户端是否符合要求,也就是给我们每个用户颁发一个证书…

python基础公式_一、Python基础(数据类型、基本函数、基本运算)

​1.变量作用:为了简便,运算时方便修改运算中的值,代指一些复杂过长的数据;what:用变量代指一些内容;how:全部由字母、数字和下划线组成,数字不能开头,不能和Python关键词…

Python爬去知乎上问题下所有图片

from zhihu_oauth import ZhihuClient from zhihu_oauth.exception import NeedCaptchaExceptionclient ZhihuClient()try:client.login(email_or_phone, password)print(u"登陆成功!") except NeedCaptchaException:# 保存验证码并提示输入,重新登录wit…

xshell连接突然报Connection closed by foreign host.

1问题描述报错 Connection closed by foreign host. Disconnected from remote host(yaoGS) at 155513. 2登入虚拟机 在linux系统操作中,经常需要连接其他的主机,连接其他主机的服务是openssh-server,它的功能是让远程主机可以通过网络访问…

java 爬虫_探索Java 多线程爬虫及分布式爬虫架构

在我们调试爬虫程序的时候,单线程爬虫没什么问题,但是当我们在线上环境使用单线程爬虫程序去采集网页时,单线程就暴露出了两个致命的问题:采集效率特别慢,单线程之间都是串行的,下一个执行动作需要等上一个…

數據庫ORACLE轉MYSQL存儲過程遇到的坑~(總結)

ORACLE數據庫轉MySQL數據庫遇到的坑 總結 最近在做Oracle轉mysql的工程,遇到的坑是真的多,尤其是存儲過程,以前都沒接觸過類似的知識,最近也差不多轉完了就總結一下。希望能幫到一些人(包括以後的自己)~ 1&…

java jdbc开启事务_spring jdbc 事务配置

配置WEB.XMLxmlns:xsi"http://www.w3.org/2001/XMLSchema-instance"xsi:schemaLocation"http://xmlns.jcp.org/xml/ns/javaee http://xmlns.jcp.org/xml/ns/javaee/web-app_3_0.xsd"version"3.0">org.springframework.web.context.ContextLoa…

python 文件指针在文件末尾_python文件操作及seek偏移详解

一、python文件操作中的编码本次测试是基于python 2.7.12 OS:Ubuntu16.04 pycharm环境,以及win7下2.7.12;首先说下汉字在文件中占用的字节数,这个先看以下实验(win7)下 因为linux下不支持gbk,本文不讲utf-8 ,gbk编码具体知识,有…

docker小实战和应用

1运行一个docker 一开始docker进不去,需要去https://hub.docker.com注册一个 2docker info查看信息 3docker run ubuntu echo hello world 查看第一个命令输出 4docker images 查看本地的镜像 5查看开启的容器和没有开启的容器 Docker ps -a 6 docker pull ngi…