word2vec训练词向量 python_使用Gensim word2vector训练词向量

word2vec训练词向量 python_使用Gensim word2vector训练词向量

news/2025/4/27 7:08:19/文章来源:https://blog.csdn.net/weixin_30124601/article/details/113688487

注意事项

Skip-Gram models：输入为单个词，输出目标为多个上下文单词；

CBOW models：输入为多个上下文单词，输出目标为一个单词；

选择的训练word2vec的语料要和要使用词向量的任务相似，并且越大越好，论文中实验说明语料比训练词向量的模型更加的重要，所以要尽量收集大的且与任务相关的语料来训练词向量；

语料小(小于一亿词，约 500MB 的文本文件)的时候用 Skip-gram 模型，语料大的时候用 CBOW 模型；

设置迭代次数为三五十次，维度至少选 50，常见的词向量的维度为256、512以及处理非常大的词表的时候的1024维；

模型训练：

LineSentence(inp)：格式简单：一句话=一行; 单词已经过预处理并被空格分隔。

size：是每个词的向量维度；

window：是词向量训练时的上下文扫描窗口大小，窗口为5就是考虑前5个词和后5个词；

min-count：设置最低频率，默认是5，如果一个词语在文档中出现的次数小于5，那么就会丢弃；

workers：是训练的进程数(需要更精准的解释，请指正)，默认是当前运行机器的处理器核数。这些参数先记住就可以了。

sg ({0, 1}, optional) – 模型的训练算法: 1: skip-gram; 0: CBOW

alpha (float, optional) – 初始学习率

iter (int, optional) – 迭代次数，默认为5

model=Word2Vec(LineSentence(inp),size=400,window=5,min_count=5,workers=multiprocessing.cpu_count())

model.save(outp1)

#不以C语言可以解析的形式存储词向量

model.wv.save_word2vec_format(outp2,binary=False)

638cdc1c1079

模型使用：

638cdc1c1079

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/news/427242.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

python可以开发exe软件吗_python能开发exe软件吗

python可以开发exe软件吗_python能开发exe软件吗

pyinstaller将Python脚本打包成exe软件，使在没有Python环境的机器上运行最新版是pyinstaller 3.1.1。支持python2.7和python3.3。可运行在Windows，Mac和Linux操作系统下。(推荐学习：Python视频教程)但它不是跨编译的，也就是说在W…

阅读更多...

mysql参数化查询为什么可以实现_为什么参数化SQL查询可以防止SQL注入?

mysql参数化查询为什么可以实现_为什么参数化SQL查询可以防止SQL注入?

SQL 语句文本对于数据库来说，是一种指令，与 Shell 中输入的一条条命令行很类似。我们在 SQL 中混入的各种值就是操作的参数。考虑一个 WHERE user_id 10 的筛选，WHERE 的条件包含两个部分：按用户筛选，以及用户 id 的值…

阅读更多...

HDU5923-Prediction-有继承味道的并查集

HDU5923-Prediction-有继承味道的并查集

目录目录思路：（有任何问题欢迎留言或私聊 && 欢迎交流讨论哦目录题意：传送门原题目描述在最下面。有一个n个节点m条边的无向图和一个m个节点的有根树(根为1)。树上每个节点和图中的某些边一一对应。每次询问给一个树的点的…

阅读更多...

bind安装和主要配置

bind安装和主要配置

1 yum -y install bind bind-chroot 2rpm -qa|grep bind，查看安装状态 3service named start服务启动 4主配置文件name.conf Option{} 整个bind的全局选项 Logging{}日志输出选项 Zong 根域这节比较简单，随便看看即可，持续更新bind相关知识…

阅读更多...

为什么火狐浏览器中点击按钮失效_各种浏览器审查、监听http头工具介绍

为什么火狐浏览器中点击按钮失效_各种浏览器审查、监听http头工具介绍

一、谷歌内置的审查工具(v17.0)。右键点击审查(CtrlShirtAlt)浏览器下方会出现审查框，刷新网页就会出现下图所示，先后点击“netword”-->在下方选中资源(如下图的1.php)-->点击headers二、httpwatch。ShirtF2打开httpwatch点击Record按钮&#xff…

阅读更多...

RabbitMQ/pika模块

RabbitMQ/pika模块

简介 MessageQueue用于解决跨进程、跨线程、跨应用、跨网络的通信问题。 RabbitMQ使用erlang开发，在windows上使用时要先安装erlang。官方的示例比较容易理解，可以点这里去看看。结构生产者 ---> exchange ---> queue ---> 消费者。生产者负…

阅读更多...

java 对象流_java 对象流的简单使用

java 对象流_java 对象流的简单使用

对象的输入输出流的作用： 用于写入对象的信息和读取对象的信息。使得对象持久化。ObjectInputStream : 对象输入流ObjectOutPutStream ：对象输出流简单的实例1 importjava.io.File;2 importjava.io.FileInputStream;3 importjava.io.FileOutputStre…

阅读更多...

centos搭建ftp服务器

centos搭建ftp服务器

1安装vsftpd 2备份配置文件 3修改配置文件 vi /etc/vsftpd/vsftpd.conf anonymous_enableNO #允许匿名用户访问为了安全选择关闭 local_enableYES # 允许本地用户登录 write_enableYES # 是否允许写入 local_umask022 # 本地用户上传文件的umask dirmessage_enableYES #为YES…

阅读更多...

ihtml2document能不能根据id获取dom_一段监视 DOM 的神奇代码

ihtml2document能不能根据id获取dom_一段监视 DOM 的神奇代码

作者：Eddie Aich翻译：疯狂的技术宅原文：https://dev.to/eddieaich/spy-on-the-dom-3d47未经允许严禁转载通过使用此模块，只需将鼠标悬停在浏览器中，即可快速查看DOM元素的属性。基本上它是一个即时检查器。将鼠标悬停在…

阅读更多...

let 和const

let 和const

let 命令 es6新增了let命令，用于声明变量，与var用法类似，但是使用let声明变量只在它所在的块内有效，而var则是定义的全局变量 {let a10;var b1; } a //a is not defined,外部的a不能访问到上面块中定义的a变量 b //1let不存在…

阅读更多...

centos7搭建apache服务器（亲测可用）

centos7搭建apache服务器（亲测可用）

1安装apache yum install httpd httpd-devel -y 2开启服务器 systemctl start httpd.service 3开机自启 systemctl enable httpd.service 4关闭防火墙 5端口访问 6修改vi /etc/httpd/conf/httpd.conf，替换 7查看selinux 也可以不修改，放入/var/www/h…

阅读更多...

java ssl 双向认证_Java实现 SSL双向认证

java ssl 双向认证_Java实现 SSL双向认证

我们常见的SSL验证较多的只是验证我们的服务器是否是真实正确的，当然如果你访问的URL压根就错了，那谁也没有办法。这个就是所谓的SSL单向认证。但是实际中，我们有可能还会验证客户端是否符合要求，也就是给我们每个用户颁发一个证书…

阅读更多...

python基础公式_一、Python基础（数据类型、基本函数、基本运算）

python基础公式_一、Python基础（数据类型、基本函数、基本运算）

1.变量作用：为了简便，运算时方便修改运算中的值，代指一些复杂过长的数据；what：用变量代指一些内容；how：全部由字母、数字和下划线组成，数字不能开头，不能和Python关键词…

阅读更多...

Python爬去知乎上问题下所有图片

Python爬去知乎上问题下所有图片

from zhihu_oauth import ZhihuClient from zhihu_oauth.exception import NeedCaptchaExceptionclient ZhihuClient()try:client.login(email_or_phone, password)print(u"登陆成功!") except NeedCaptchaException:# 保存验证码并提示输入，重新登录wit…

阅读更多...

xshell连接突然报Connection closed by foreign host.

xshell连接突然报Connection closed by foreign host.

1问题描述报错 Connection closed by foreign host. Disconnected from remote host(yaoGS) at 155513. 2登入虚拟机在linux系统操作中，经常需要连接其他的主机，连接其他主机的服务是openssh-server，它的功能是让远程主机可以通过网络访问…

阅读更多...

java 爬虫_探索Java 多线程爬虫及分布式爬虫架构

java 爬虫_探索Java 多线程爬虫及分布式爬虫架构

在我们调试爬虫程序的时候，单线程爬虫没什么问题，但是当我们在线上环境使用单线程爬虫程序去采集网页时，单线程就暴露出了两个致命的问题：采集效率特别慢，单线程之间都是串行的，下一个执行动作需要等上一个…

阅读更多...

數據庫ORACLE轉MYSQL存儲過程遇到的坑~（總結）

數據庫ORACLE轉MYSQL存儲過程遇到的坑~（總結）

ORACLE數據庫轉MySQL數據庫遇到的坑總結最近在做Oracle轉mysql的工程，遇到的坑是真的多，尤其是存儲過程，以前都沒接觸過類似的知識，最近也差不多轉完了就總結一下。希望能幫到一些人（包括以後的自己）~ 1&…

阅读更多...

java jdbc开启事务_spring jdbc 事务配置

java jdbc开启事务_spring jdbc 事务配置

配置WEB.XMLxmlns:xsi"http://www.w3.org/2001/XMLSchema-instance"xsi:schemaLocation"http://xmlns.jcp.org/xml/ns/javaee http://xmlns.jcp.org/xml/ns/javaee/web-app_3_0.xsd"version"3.0">org.springframework.web.context.ContextLoa…

阅读更多...

python 文件指针在文件末尾_python文件操作及seek偏移详解

python 文件指针在文件末尾_python文件操作及seek偏移详解

一、python文件操作中的编码本次测试是基于python 2.7.12 OS:Ubuntu16.04 pycharm环境，以及win7下2.7.12;首先说下汉字在文件中占用的字节数，这个先看以下实验(win7)下因为linux下不支持gbk，本文不讲utf-8 ,gbk编码具体知识，有…

阅读更多...

docker小实战和应用

docker小实战和应用

1运行一个docker 一开始docker进不去，需要去https://hub.docker.com注册一个 2docker info查看信息 3docker run ubuntu echo hello world 查看第一个命令输出 4docker images 查看本地的镜像 5查看开启的容器和没有开启的容器 Docker ps -a 6 docker pull ngi…

阅读更多...

最新文章