深度学习每周学习总结N5：调用Gensim库训练Word2Vec模型

- 0. 总结：
- 1. 关于`nn.Embedding()`, `nn.EmbeddingBag()`, 和 `word2vec`
- - nn.Embedding()
  - nn.EmbeddingBag()
  - Word2Vec
  - 联系与区别
- 2. 调用Gensim库训练Word2Vec模型
- - 准备工作
  - 对原始语料分词
  - 训练模型
  - 模型应用
  - - 计算词汇相似度
    - 找出不匹配的词汇
    - 计算词汇的词频
  - 提问：
  - - 问：每次运行得到的相似度都不一样正常吗答：正常，可以通过设置随机种子保证结果一致

0. 总结：

之前有学习过文本预处理的环节，对文本处理的主要方式有以下三种：

1：词袋模型（one-hot编码）

2：TF-IDF

3：Word2Vec(词向量(Word Embedding) 以及Word2vec(Word Embedding 的方法之一))

详细介绍及中英文分词详见pytorch文本分类（一）：文本预处理

上上上期主要介绍Embedding,及EmbeddingBag 使用示例（对词索引向量转化为词嵌入向量），上上期主要介绍：应用三种模型的英文分类

上期将主要介绍中文基本分类（熟悉流程）、拓展：textCNN分类（通用模型）、拓展：Bert分类（模型进阶）

本期主要介绍Word2Vec，和nn.Embedding(), nn.EmbeddingBag()相比都是嵌入技术，用于将离散的词语或符号映射到连续的向量空间。

nn.Embedding 和 nn.EmbeddingBag 是深度学习框架（如 PyTorch）中的层，直接用于神经网络模型中，而 Word2Vec 是一种独立的词嵌入算法。

使用来说，如果需要在神经网络中处理变长序列的嵌入，可以选择 nn.EmbeddingBag；如果需要预训练词嵌入用于不同任务，可以选择 Word2Vec。

1. 关于`nn.Embedding()`, `nn.EmbeddingBag()`, 和 `word2vec`

都是嵌入技术，用于将离散的词语或符号映射到连续的向量空间。虽然它们的目的相似，但它们的实现和使用场景有明显的区别。

nn.Embedding()

nn.Embedding 是 PyTorch 提供的一种层，用于将输入的索引映射到高维向量。每个输入的索引对应一个固定的向量。

特点：
简单映射：将输入的词索引直接映射到嵌入向量。
训练：可以通过反向传播算法训练嵌入向量。
应用：常用于处理自然语言处理中的词嵌入，输入一个批次的词索引，输出对应的嵌入向量。
示例代码：

import torch
import torch.nn as nn# 定义一个具有 10 个词汇，每个词汇被映射到 3 维向量空间的嵌入层
embedding = nn.Embedding(10, 3)# 输入一个词汇索引，输出对应的嵌入向量
input_indices = torch.LongTensor([1, 2, 3, 4])
output = embedding(input_indices)
print(output)

nn.EmbeddingBag()

nn.EmbeddingBag 是 nn.Embedding 的变体，通常用于处理可变长度序列的嵌入。

特点：
加权求和：将输入索引对应的嵌入向量加权求和，默认不使用权重时就是求平均。
无padding处理：可以避免填充操作，直接处理变长序列。
应用：常用于文本分类等需要对变长文本序列进行聚合的任务。
示例代码：

import torch
import torch.nn as nn# 定义一个具有 10 个词汇，每个词汇被映射到 3 维向量空间的嵌入层
embedding_bag = nn.EmbeddingBag(10, 3, mode='mean')# 输入索引和偏移量
input_indices = torch.LongTensor([1, 2, 3, 4])
offsets = torch.LongTensor([0, 2])# 输出对应的嵌入向量的平均值
output = embedding_bag(input_indices, offsets)
print(output)

Word2Vec

Word2Vec 是一种独立于深度学习框架的词嵌入算法，由 Google 提出。Word2Vec 有两个主要的变体：CBOW（Continuous Bag of Words）和 Skip-gram。

特点：
CBOW：通过上下文词预测目标词。
Skip-gram：通过目标词预测上下文词。
预训练模型：Word2Vec 通常用于预训练词嵌入，可以在大规模语料上预训练，然后在特定任务中微调。
独立实现：可以在 gensim 或其他库中使用，不需要特定的深度学习框架。
示例代码（使用 gensim）：

from gensim.models import Word2Vec# 示例语料
sentences = [['first', 'sentence'], ['second', 'sentence']]# 训练 Word2Vec 模型
model = Word2Vec(sentences, vector_size=100, window=5, min_count=1, workers=4)# 获取词嵌入向量
vector = model.wv['sentence']
print(vector)

联系与区别

相似点：
- nn.Embedding 和 Word2Vec 都将词索引或词语映射到高维向量。
- 它们都可以通过训练数据来学习嵌入向量。
区别点：
- nn.Embedding 和 nn.EmbeddingBag 是深度学习框架（如 PyTorch）中的层，直接用于神经网络模型中，而 Word2Vec 是一种独立的词嵌入算法。
- nn.EmbeddingBag 通过聚合（如求和或平均）处理变长序列，而 nn.Embedding 只能处理固定长度的输入。
- Word2Vec 通常用于预训练嵌入，并可以在多个任务中复用，而 nn.Embedding 和 nn.EmbeddingBag 通常在特定任务中训练。

这些工具的选择取决于具体的应用场景和需求。例如，如果需要在神经网络中处理变长序列的嵌入，可以选择 nn.EmbeddingBag；如果需要预训练词嵌入用于不同任务，可以选择 Word2Vec。

2. 调用Gensim库训练Word2Vec模型

准备工作

# 安装Gensim库
!pip install gensim

Defaulting to user installation because normal site-packages is not writeable
Requirement already satisfied: gensim in c:\programdata\anaconda3\lib\site-packages (4.1.2)
Requirement already satisfied: numpy>=1.17.0 in c:\users\chengyuanting\appdata\roaming\python\python39\site-packages (from gensim) (1.22.4)
Requirement already satisfied: smart-open>=1.8.1 in c:\programdata\anaconda3\lib\site-packages (from gensim) (5.1.0)
Requirement already satisfied: scipy>=0.18.1 in c:\users\chengyuanting\appdata\roaming\python\python39\site-packages (from gensim) (1.8.0)

对原始语料分词

import jieba
import jieba.analysejieba.suggest_freq('沙瑞金', True) # 加入一些词，使得jieba分词准确率更高
jieba.suggest_freq('田国富', True)
jieba.suggest_freq('高育良', True)
jieba.suggest_freq('侯亮平', True)
jieba.suggest_freq('钟小艾', True)
jieba.suggest_freq('陈岩石', True)
jieba.suggest_freq('欧阳菁', True)
jieba.suggest_freq('易学习', True)
jieba.suggest_freq('王大路', True)
jieba.suggest_freq('蔡成功', True)
jieba.suggest_freq('孙连城', True)
jieba.suggest_freq('季昌明', True)
jieba.suggest_freq('丁义珍', True)
jieba.suggest_freq('郑西坡', True)
jieba.suggest_freq('赵东来', True)
jieba.suggest_freq('高小琴', True)
jieba.suggest_freq('赵瑞龙', True)
jieba.suggest_freq('林华华', True)
jieba.suggest_freq('陆亦可', True)
jieba.suggest_freq('刘新建', True)
jieba.suggest_freq('刘庆祝', True)
jieba.suggest_freq('赵德汉', True)with open('./data/in_the_name_of_people.txt',encoding = 'utf-8') as f:result_cut = []lines = f.readlines()  # 读取的内容存储在 lines 列表中，每一行作为列表的一个元素。for line in lines:result_cut.append(list(jieba.cut(line))) # 对文件的每一行使用 jieba.cut 函数进行分词，并将分词结果（一个词列表）添加到 result_cut 列表中f.close()

Building prefix dict from the default dictionary ...
Loading model from cache C:\Users\CHENGY~1\AppData\Local\Temp\jieba.cache
Loading model cost 0.583 seconds.
Prefix dict has been built successfully.

这里使用 jieba.suggest_freq 函数来调整某些词语的词频，使得这些词语在分词时更准确。这对于一些特定的名字或短语尤为重要。参数 True 表示强制调整这些词语的词频
批量添加指定词汇方法：

import jieba# 定义需要添加的词语列表
words_to_add = ['沙瑞金', '田国富', '高育良', '侯亮平', '钟小艾','陈岩石', '欧阳菁', '易学习', '王大路', '蔡成功','孙连城', '季昌明', '丁义珍', '郑西坡', '赵东来','高小琴', '赵瑞龙', '林华华', '陆亦可', '刘新建','刘庆祝', '赵德汉'
]# 批量添加词语
for word in words_to_add:jieba.add_word(word, freq=100000, tag='n')

# 添加自定义停用词
stopwords_list = ["，","。","\n","\u3000"," ","：","！","？","…"]def remove_stopwords(ls):  # 去除停用词return [word for word in ls if word not in stopwords_list]result_stop=[remove_stopwords(x) for x in result_cut if remove_stopwords(x)]

拿到了分词后的文件，在一般的NLP处理中，会需要去停用词。由于word2vec的算法依赖于上下文，而上下文有可能就是停词。因此对于word2vec，我们可以不用去停词，仅仅去掉一些标点符号，做一个简单的数据清洗。
现在我们可以直接读分词后的文件到内存。这里使用了word2vec提供的LineSentence类来读文件，然后套用word2vec的模型。在实际应用中，可以调参提高词的embedding的效果。

print(result_stop[100:103])

[['侯亮平', '也', '很', '幽默', '一把', '抓住', '了', '赵德汉', '的', '手', '哎', '赵', '处长', '我', '既', '来', '了', '还', '真', '舍不得', '和', '你', '马上', '就', '分手', '哩', '咱们', '去', '下', '一个点', '吧', '说', '罢', '从', '赵家', '桌上', '杂物', '筐', '里', '准确', '地', '拿出', '一张', '白色', '门卡', '插到', '了', '赵德汉', '的', '上衣', '口袋', '里'], ['赵德汉', '慌', '了', '忙', '把门', '卡往', '外', '掏', '这', '这', '什么', '呀', '这', '是'], ['你', '帝京', '苑', '豪宅', '的', '门', '卡', '啊', '请', '继续', '配合', '我们', '执行公务', '吧']]

训练模型

import gensim
from gensim.models import Word2Vecmodel = Word2Vec(result_stop,     # 用于训练的语料数据vector_size=100, # 是指特征向量的维度，默认为100。window=5,        # 一个句子中当前单词和被预测单词的最大距离。min_count=1)     # 可以对字典做截断，词频少于min_count次数的单词会被丢弃掉, 默认值为5。

参数解析：

result_stop：用于训练的语料数据。应该是一个包含分词后的句子的列表，每个句子本身是一个词列表。例如：[['word1', 'word2', ...], ['word3', 'word4', ...], ...]。
vector_size：生成词向量的维度。默认值是100。这个参数决定了每个词被表示成多少维的向量。
window：窗口大小，表示当前词语与预测词语之间的最大距离。在训练过程中，模型会考虑窗口范围内的词作为上下文。
min_count：忽略词频少于 min_count 的词。默认值是5。设为1意味着所有词语都会被考虑，不会丢弃低频词。

示例代码
假设 result_stop 已经定义为一个包含预处理后的文本数据的列表：

import gensim
from gensim.models import Word2Vec# 示例分词后的语料数据
result_stop = [['沙瑞金', '田国富', '高育良'],['侯亮平', '钟小艾', '陈岩石'],['欧阳菁', '易学习', '王大路'],['蔡成功', '孙连城', '季昌明'],# 更多的分词数据
]# 训练 Word2Vec 模型
model = Word2Vec(result_stop,     # 用于训练的语料数据vector_size=100, # 特征向量的维度，默认为100。window=5,        # 当前单词和被预测单词的最大距离。min_count=1)     # 词频少于min_count次数的单词会被丢弃掉, 默认值为5。# 保存模型
model.save("word2vec_model.model")# 加载模型
loaded_model = Word2Vec.load("word2vec_model.model")# 获取某个词的词向量
vector = loaded_model.wv['沙瑞金']
print(vector)# 找到与某个词最相似的词
similar_words = loaded_model.wv.most_similar('沙瑞金')
print(similar_words)

模型应用

计算词汇相似度

我们可以使用similarity()方法计算两个词汇之间的余弦相似度。

print(model.wv.similarity('沙瑞金','季昌明'))
print(model.wv.similarity('沙瑞金','田国富'))

0.9994391
0.9995074

# 选出最相似的5个词
for e in model.wv.most_similar(positive=['沙瑞金'],topn=5):print(e[0],e[1])

这位 0.9998624324798584
大 0.9997861385345459
领导 0.9997762441635132
个 0.999770998954773
政治 0.9997647404670715

找出不匹配的词汇

使用doesnt_match()方法，我们可以找到一组词汇中与其他词汇不匹配的词汇。

odd_word = model.wv.doesnt_match('["苹果","香蕉","猴子","书"]')
print(f"在这组词汇中不匹配的词汇：{odd_word}")

在这组词汇中不匹配的词汇：子

计算词汇的词频

我们可以使用get_vecattr()方法获取词汇的词频。

word_frequency = model.wv.get_vecattr("沙瑞金","count")
print(f"沙瑞金:{word_frequency}")

沙瑞金:353

提问：

问：每次运行得到的相似度都不一样正常吗答：正常，可以通过设置随机种子保证结果一致

每次运行 Word2Vec 模型训练时，如果没有设置随机种子（seed），模型的初始化和训练过程会有随机性，因此得到的词向量和相似度结果可能会有所不同。为了确保每次运行得到的结果一致，可以设置随机种子。

下面是如何设置随机种子的示例代码：

import gensim
from gensim.models import Word2Vec# 示例分词后的语料数据
result_stop = [['沙瑞金', '田国富', '高育良'],['侯亮平', '钟小艾', '陈岩石'],['欧阳菁', '易学习', '王大路'],['蔡成功', '孙连城', '季昌明'],# 更多的分词数据
]# 设置随机种子以确保结果一致
seed = 42# 训练 Word2Vec 模型
model = Word2Vec(result_stop,     # 用于训练的语料数据vector_size=100, # 特征向量的维度，默认为100。window=5,        # 当前单词和被预测单词的最大距离。min_count=1,     # 词频少于min_count次数的单词会被丢弃掉, 默认值为5。seed=seed)       # 设置随机种子# 保存模型
model.save("word2vec_model.model")# 加载模型
loaded_model = Word2Vec.load("word2vec_model.model")# 获取某个词的词向量
vector = loaded_model.wv['沙瑞金']
print(vector)# 找到与某个词最相似的词
similar_words = loaded_model.wv.most_similar('沙瑞金')
print(similar_words)