利用word2vec包将中文转变为词向量

代码展示：

import jieba
import re
import json
import logging
import sys
import gensim.models as word2vec
from gensim.models.word2vec import LineSentence, loggerpattern = u'[\\s\\d,.<>/?:;\'\"[\\]{}()\\|~!\t"@#$%^&*\\-_=+a-zA-Z，。\n《》、？：；“”‘’｛｝【】（）…￥！—┄－]+'def get_sentence(data_file):f = open(data_file, encoding='utf-8') #读取json数据reader = f.readlines()sentences = []  # 修改：存放每个句子的列表for line in reader:line = json.loads(line.strip())sentence = ' '.join(jieba.cut(re.sub(pattern, '', line['sentence'])))sentences.append(sentence)  # 修改：将每个分词后的句子添加到 sentences 列表中word_lists = [sentence.split() for sentence in sentences]return word_listsdef train_word2vec(sentences, out_vector):# 设置输出日志logging.basicConfig(format='%(asctime)s : %(levelname)s : %(message)s', level=logging.INFO)logger.info("running %s" % ' '.join(sys.argv))# 训练word2vec模型model = word2vec.Word2Vec(sentences, vector_size=100, sg=1, window=5, min_count=5, workers=4, epochs=5)# 保存word2vec模型model.save("word2vec_model.model")# 保存词向量到文件model.wv.save_word2vec_format(out_vector, binary=False)def load_model(w2v_path):model = word2vec.Word2Vec.load(w2v_path)  # 读取保存的模型return modeldef calculate_most_similar(model, word):similar_words = model.wv.most_similar(word)print(word)for term in similar_words:print(term[0], term[1])if __name__ == '__main__':out_vector = 'word_vectors.txt'word_lists = get_sentence('train.json')train_word2vec(word_lists, out_vector)model = load_model('word2vec_model.model')calculate_most_similar(model, "美国")  # 输出与美国在词向量空间中相近的词

结果展现：

word2vec.Word2Vec 方法中的参数含义如下：

sentences：输入的句子集合，可以是一个可迭代对象，每个元素表示一个句子，句子则是由单词组成的列表。
vector_size：词向量的维度大小。它决定了每个单词在训练过程中学习到的词向量的维度。
window：词向量训练时的上下文窗口大小。窗口大小表示当前词与预测词之间的最大距离。在训练时，窗口大小决定了模型考虑的上下文单词数量。
min_count：忽略频率低于此值的单词。如果一个单词在整个语料库中的出现次数少于 min_count，则该单词将被忽略，不会被用于训练模型。
workers：训练时使用的线程数量，用于加速训练过程。指定多个线程可以加快模型的训练速度。
sg：用于指定训练算法的模型类型。当 sg=0 时，表示使用 CBOW 模型；当 sg=1 时，表示使用 Skip-Gram 模型。
epochs：指定训练的迭代次数。一个迭代表示对整个语料库的一次遍历。

这些参数共同决定了 Word2Vec 模型的训练过程和最终学习到的词向量的质量。根据具体的应用场景和语料库的特点，可以调整这些参数以获得更好的结果。

sentence的具体格式（两个列表）：

sentences = [['海陆空', '全能', '反恐', '王'], ['说', '出来', '你', '可能', '不', '信', '旅游', '日', '免费', '吃', '砂锅', '自助餐']]

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/news/830377.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

利用word2vec包将中文转变为词向量

相关文章

C#创建obj三维模型文件

【docker】开放Docker端口

linux(ubuntu18.04.2) Qt编译 MySQL（8.0以上版本）链接库 Qt版本 5.12.12及以上包含Mysql动态库缺失问题

tidb离线本地安装及mysql迁移到tidb

智能合约语言（eDSL）—— wasmtime实现合约引擎补充

【如何使用SSH密钥验证提升服务器安全性及操作效率】（优雅的连接到自己的linux服务器）

计算机复试项目：SpringCloud实战高并发微服务架构设计

Python 基于 OpenCV 视觉图像处理实战之 OpenCV 简单人脸检测/识别实战案例之九简单进行嘴巴检测并添加特效的功能实现

Visual Studio Installer 运行python 汉字

ceph 1 pool(s) do not have an application enabled

ArcGIS小技巧—模型构建器快速提取河网

Python基本数据类型

8、Flink 在 source 处生成水位线和在 source 之后生成水位线案例

摇杆控制电机

数字化wms仓库管理软件，实现企业仓储信息共享与智慧运行-亿发

爱普生晶振在物联网LoRa通讯中的应用

【Spring】2.Spring中Bean的生命周期管理及定义

神经网络高效训练：优化GPU受限环境下的大规模CSV数据处理指南

网络之路29：三层链路聚合

wow_iot模块说明