第N5周:调用Gensim库训练Word2Vec模型

  • 🍨 本文为🔗365天深度学习训练营 中的学习记录博客
  • 🍖 原作者:K同学啊 | 接辅导、项目定制
  • 🚀 文章来源:K同学的学习圈子

目录

本周任务:

 1.安装Gensim库

2.对原始语料分词

3.停用词

 4.训练Woed2Vec模型

5. 模型应用

1.计算词汇相似度

2.找出不匹配的词汇

3.计算词汇的词频

 6.总结:

jieba分词库的使用

2. Word2Vec模型的基本使用

3. 词向量操作

本周任务:

1.阅读NLP基础知识里Word2vec详解一文,了解并学习Word2vec相关知识

2.创建一个 .txt 文件存放自定义词汇,防止其被切分

 1.安装Gensim库

pip install gensim

2.对原始语料分词

选择《人民的名义》的小说原文作为语料,先采用iieba进行分词。这里是直接添加的自定义词汇没有选择创建自定义词汇文件。(任务2代码处) 

import jieba
import jieba.analyse
jieba.suggest_freq('沙瑞金',True)#加入一些词,使得jieba分词准确率更高
jieba.suggest_freq('田国富',True)
jieba.suggest_freq('高育良',True)
jieba.suggest_freq('侯亮平',True)
jieba.suggest_freq('钟小艾',True)
jieba.suggest_freq('陈岩石',True)
jieba.suggest_freq('欧阳菁',True)
jieba.suggest_freq('易学习',True)
jieba.suggest_freq('王大路',True)
jieba.suggest_freq('蔡成功',True)
jieba.suggest_freq('孙连城',True)
jieba.suggest_freq('季昌明',True)
jieba.suggest_freq('丁义珍',True)
jieba.suggest_freq('郑西坡',True)
jieba.suggest_freq('赵东来',True)
jieba.suggest_freq('高小琴',True)
jieba.suggest_freq('赵瑞龙',True)
jieba.suggest_freq('林华华',True)
jieba.suggest_freq('陆亦可',True)
jieba.suggest_freq('刘新建',True)
jieba.suggest_freq('刘庆祝',True)
jieba.suggest_freq('赵德汉',True)
with open('./data/in_the_name_of_people.txt', encoding='utf-8')as f:result_cut = []lines = f.readlines()for line in lines:result_cut.append(list(jieba.cut(line)))
f.close()

 输出结果:

3.停用词

在自然语言处理(NLP)中,停用词(stop words)是指在文本中频繁出现但对于传达实际意义贡献不大的词。这些词通常是冠词、介词、连词等,例如“的”、“和”、“是”、“在”等。停用词在文本中几乎无处不在,但它们并不携带太多实际的语义信息。

 拿到了分词后的文件,在一般的NLP处理中,会需要去停用词。由于word2vec的算法依赖于上下文,而上下文有可能就是停词。因此对于word2vec,我们可以不用去停词,仅仅去掉一些标点符号,做一个简单的数据清洗。

现在我们可以直接读分词后的文件到内存。这里使用了word2vec提供的LineSentence类来读文然后套用word2vec的模型。在实际应用中,可以调参提高词的embedding的效果。

#添加自定义停用词
stopwords_list = [",","。","\n","\u3000","",":","!","?","…"]
def remove_stopwords(ls):  #去除停用词return [word for word in ls if word not in stopwords_list]result_stop=[remove_stopwords(x)for x in result_cut if remove_stopwords(x)]print(result_stop[100:103])

 4.训练Woed2Vec模型

from gensim.models import Word2Vec
model =Word2Vec(result_stop,#用于训练的语料数据vector_size=100,#是指特征向量的维度,默认为100。一个句子中当前单词和被预测单词的最大距离。window=5,min_count=1)#可以对字典做截断.词频少于min_count次数的单词会被丢弃掉,

5. 模型应用

1.计算词汇相似度

我们可以使用 similarity()方法计算两个词汇之间的余弦相似度。

#计算两个词的相似度
print(model.wv.similarity('沙瑞金','季昌明'))
print(model.wv.similarity('沙瑞金','田国富'))

0.9985029
0.99909985

#选出最相似的5个词
for e in model.wv.most_similar(positive=['沙瑞金'],topn=5):print(e[0],e[1])

肖钢玉 0.9993638396263123
李达康 0.9993550777435303
意外 0.9992921352386475
赵东来 0.9992125034332275
这样 0.9992020130157471 

2.找出不匹配的词汇

使用 doesnt_match()方法,我们可以找到一组词汇中与其他词汇不匹配的词汇 

odd_word =model.wv.doesnt_match(["苹果","香蕉","橙子","书"])
print(f"在这组词汇中不匹配的词汇:{odd_word}")

在这组词汇中不匹配的词汇:书

3.计算词汇的词频

我们可以使用 get_vecattr()方法获取词汇的词频 

word_frequency = model.wv.get_vecattr("沙瑞金", "count")
print(f"沙瑞金: {word_frequency}")

沙瑞金: 353

 6.总结:

jieba分词库的使用

  • 分词功能:通过jieba.cut方法对文本进行分词。suggest_freq函数用于添加一些特定的词汇,以提高分词的准确性。
  • 自定义停用词:通过remove_stopwords函数过滤掉指定的停用词,这些词汇在文本处理中通常不携带有用的信息,如标点符号、换行符等。

2. Word2Vec模型的基本使用

  • 模型初始化Word2Vec类的初始化参数:
    • vector_size=100:设定特征向量的维度,通常为100维。
    • window=5:指定当前词和预测词之间的最大距离。
    • min_count=1:指定忽略频率小于1的词。
  • 训练模型:通过将分词后的文本数据传入Word2Vec模型中,进行训练。

3. 词向量操作

  • 计算相似度:使用model.wv.similarity计算两个词之间的相似度。
  • 获取最相似的词model.wv.most_similar可以找出与给定词最相似的词汇。
  • 找到不匹配的词model.wv.doesnt_match用于找出一组词中不属于同一类别的词汇。
  • 词频查询:使用model.wv.get_vecattr获取特定词的词频信息。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/31186.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

办展览如何盈利?论办展的商业模式

想要弄清楚办展览怎么赚钱这个问题,我可以来说说。 首先来说说展览收益的大头:门票收入。 这个其实是可以大致预测的。简单来说,就是用流量乘以到店率。 但别忘了,这背后得有合适的展览定位、方便的展览场地和合理的票价。 说…

封禁SSH登录的IP

在公网上开放SSHD服务时常被黑客扫描,可用以下方式封禁其IP: 1. 在/etc/hosts/deny中加:sshd: /etc/sshd.deny.hostguard echo "sshd: /etc/sshd.deny.hostguard" > /etc/hosts/deny 2. 然后将/var/log/secure中探测密码的远…

小林图解系统-三、操作系统结构

Linux 内核 vs Windows 内核 内核 作为应用连接硬件设备的桥梁,保证应用程序只需要关心与内核交互,不需要关心硬件的细节 内核具备四个基本能力: 管理进程、线程,决定哪个进程、线程使用CPU,也就是进程调度的能力&a…

Linux——ansible关于“文件操作”的模块

修改文件并将其复制到主机 一、确保受管主机上存在文件 使用 file 模块处理受管主机上的文件。其工作方式与 touch 命令类似,如果不存在则创建一个空文件,如果存在,则更新其修改时间。在本例中,除了处理文件之外,Ansi…

华为设备SSH远程访问配置实验简述

一、实验需求: 1、AR1模拟电脑SSH 访问AR2路由器。 二、实验步骤: 1、AR1和AR2接口配置IP,实现链路通信。 2、AR2配置AAA模式 配置用户及密码 配置用户访问级别 配置用户SSH 访问服务 AR2配置远程服务数量 配置用户远程访问模式为AAA 配置允许登录接入用…

【问题记录】Ubuntu提示: “E: 软件包 gcc 没有可安装候选“

Ubuntu提示: "E: 软件包 gcc 没有可安装候选" 一,问题现象二,问题原因&解决方法 一,问题现象 在虚拟机Ubuntu中进行安装gcc命令时报错:“E: 软件包 gcc 没有可安装候选”: 二,问题原因&解决方法 …

go-zero使用goctl生成mongodb的操作使用方法

目录 MongoDB简介 MongoDB的优势 对比mysql的操作 goctl的mongodb代码生成 如何使用 go-zero中mogodb使用 mongodb官方驱动使用 model模型的方式使用 其他资源 MongoDB简介 mongodb是一种高性能、开源、文档型的nosql数据库,被广泛应用于web应用、大数据以…

刷题——寻找峰值

寻找峰值_牛客题霸_牛客网 int findPeakElement(vector<int>& nums) {// write code hereint left 0, right nums.size() - 1;while(left < right){int mid (right - left) / 2 left;if(nums[mid] < nums[mid 1])left mid 1;elseright mid;}return lef…

Linux grep -r 遍历包括子文件内容和 jar包的类

grep -r 遍历包括子文件内容和 jar包的类 (base) [roottest002 24-06-20 13:38:47 flink-cdc-3.1.0 #] grep -r com.mysql.cj.jdbc.Driver * 匹配到二进制文件 lib/mysql-connector-java-8.0.27.jar (base) [roottest002 24-06-20 13:41:32 flink-cdc-3.1.0 #] vim 1 (base) [r…

性能测试-性能监控分析与调优(三)《实战》

性能监控 使用命令监控 cpu瓶颈分析 top命令 在进行性能测试时使用top命令&#xff0c;界面如下 上图可以看出 CPU 概况区&#xff1a; %Cpu(s): us&#xff08;用户进程占用CPU的百分比&#xff09;, 和 sy&#xff08;系统进程占用CPU的百分比&#xff09; 的数值很高…

FreeRTOS学习 -- 队列

一、队列简介 队列是为了任务与任务、任务与中断之间的通信而准备的&#xff0c;可以在任务与任务、任务与中断之间传递消息&#xff0c;队列中可以存储有限的、大小固定的数据项目。 任务与任务、任务与中断之间要交流的数据保存在队列中&#xff0c;叫做队列项目。 队列所能…

Python学习笔记14 -- 异常处理

try -- except 1、使用原因&#xff1a; 当用户输入不符合预期的命令时&#xff0c;尽量避免程序报错&#xff0c;并给出正常指令使用户能调整指令 try:guess_limit int(sys.argv[1]) except:guess_limit 4 # 默认为4次print("The input of chance has something wr…

代码随想录-Day36

452. 用最少数量的箭引爆气球 有一些球形气球贴在一堵用 XY 平面表示的墙面上。墙面上的气球记录在整数数组 points &#xff0c;其中points[i] [xstart, xend] 表示水平直径在 xstart 和 xend之间的气球。你不知道气球的确切 y 坐标。 一支弓箭可以沿着 x 轴从不同点 完全垂…

建筑工程乙级资质审批的关键要点

企业条件&#xff1a;审批时会严格审查企业的基本情况&#xff0c;如注册资本、经营年限、法人代表及管理层的背景等&#xff0c;确保企业合法存续且信誉良好。 技术人员配置&#xff1a;这是审批的重点之一&#xff0c;需要审查技术人员的专业资格、职称、工作经验以及在岗情…

Linux--视频推流及问题

方案一&#xff1a; mjpg-streamer,它运行在ARM板上 在手机上使用浏览器直接观看视频 方案二&#xff1a; 推流端&#xff08;Fmpeg&#xff09;--rtmp-->Nginx&#xff08;流媒体服务器&#xff09;--rtmp/httpflv/hls-->浏览器、播放器 此篇文章记录方案二的具体细…

MixChecker ULTRA - 您的混音是否真正完美 ?

https://www.bilibili.com/video/BV1fn4y1Q7jo/?vd_source106698354c99ab1e247cf1ba622daa0b MixChecker ULTRA - 您的混音是否真正完美 &#xff1f; 无论您是专业的混音/母带工程师&#xff0c;还是在家中为粉丝或乐队混音音乐&#xff0c;我们都努力实现一个共同的目标&a…

Meta悄咪咪的发布多款AI新模型

大模型技术论文不断&#xff0c;每个月总会新增上千篇。本专栏精选论文重点解读&#xff0c;主题还是围绕着行业实践和工程量产。若在某个环节出现卡点&#xff0c;可以回到大模型必备腔调或者LLM背后的基础模型重新阅读。而最新科技&#xff08;Mamba,xLSTM,KAN&#xff09;则…

自定义线程池

自定义线程池需要什么 需要哪些类 MyTask /*** 自定义线程池任务* 要求每个线程有自己的编号* 线程的执行时间为0.2s*/ Data public class MyTask implements Runnable{private int id;MyTask(int id) {this.id id;}Overridepublic void run() {String name Thread.curren…

基于Java的家政服务管理平台

开头语&#xff1a;你好呀&#xff0c;我是计算机学姐码农小野&#xff01;如果有相关需求&#xff0c;可以私信联系我。 开发语言&#xff1a;Java 数据库&#xff1a;MySQL 技术&#xff1a;B/S结构&#xff0c;SpringBoot框架 工具&#xff1a;MyEclipse&#xff0c;Nav…

网络编程5----初识http

1.1 请求和响应的格式 http协议和前边学过的传输层、网络层协议不同&#xff0c;它是“一问一答”形式的&#xff0c;所以要分为请求和响应两部分看待&#xff0c;同时&#xff0c;请求和响应的格式是不同的&#xff0c;我们来具体介绍一下。 1.1.1 请求 在介绍请求之前&…