4-4 词嵌入技术(word2vec)

4-4 词嵌入技术(word2vec)

词嵌入技术(word2vec)是自然语言处理(NLP)中的一种关键技术,通过将词语映射到低维向量空间中,使得计算机能够理解和处理语言中的语义信息。词嵌入不仅可以用于文本分类、情感分析等任务,还在机器翻译、对话系统等领域发挥着重要作用。本文将深入探讨词嵌入技术,尤其是word2vec的原理与应用,并提供丰富的Python代码示例,帮助读者更好地理解这一技术。

词嵌入的基本概念

什么是词嵌入?

词嵌入(Word Embedding)是一种将词语表示为实数向量的技术。传统的词表示方法,如one-hot编码,将每个词表示为一个高维的稀疏向量,这种表示方法无法捕捉词语之间的语义关系。而词嵌入通过将词语映射到一个低维的连续向量空间,使得语义相似的词在向量空间中的距离更近,从而更好地捕捉词语之间的关系。

word2vec的基本原理

word2vec是由Mikolov等人在2013年提出的一种词嵌入模型,主要包括两种模型结构:连续词袋模型(CBOW)和Skip-gram模型。

  • CBOW(Continuous Bag of Words):通过上下文词语预测中心词。例如,在句子“我喜欢自然语言处理”中,利用“我”和“自然语言处理”来预测“喜欢”。

  • Skip-gram:通过中心词预测上下文词语。例如,在句子“我喜欢自然语言处理”中,利用“喜欢”来预测“我”和“自然语言处理”。

词嵌入的优点

  1. 低维表示:词嵌入将高维的稀疏向量表示转换为低维的稠密向量表示,降低了计算复杂度。
  2. 语义捕捉:词嵌入能够捕捉词语之间的语义关系,相似的词语在向量空间中距离更近。
  3. 迁移学习:预训练的词嵌入模型可以在不同的任务中迁移使用,提高模型的性能和稳定性。

word2vec的实现与应用

下面我们将通过Python代码示例,演示如何使用word2vec进行词嵌入训练和应用。

安装必要的库

首先,我们需要安装gensim库,这是一个用于主题建模和文档相似性分析的Python库,支持word2vec模型。

pip install gensim

准备数据

我们以中文文本数据为例,准备一份简单的语料库。

import jieba# 示例文本数据
documents = ["我喜欢自然语言处理","自然语言处理是人工智能的一个分支","机器学习是自然语言处理的重要组成部分","我们可以使用word2vec来训练词向量","词嵌入技术在文本分类中非常有用"
]# 对文本数据进行分词处理
tokenized_documents = [list(jieba.cut(doc)) for doc in documents]

训练word2vec模型

使用gensim库训练word2vec模型。

from gensim.models import Word2Vec# 训练word2vec模型
model = Word2Vec(sentences=tokenized_documents, vector_size=100, window=5, min_count=1, workers=4)# 保存模型
model.save("word2vec.model")

使用训练好的模型

我们可以使用训练好的word2vec模型来进行词语相似度计算、寻找相似词语等操作。

# 加载模型
model = Word2Vec.load("word2vec.model")# 计算两个词语的相似度
similarity = model.wv.similarity("自然语言", "人工智能")
print(f"‘自然语言’与‘人工智能’的相似度为:{similarity}")

在这里插入图片描述

可视化词向量

为了更直观地理解词嵌入的效果,我们可以使用t-SNE算法对高维词向量进行降维,并进行可视化。

import matplotlib.pyplot as plt
from sklearn.manifold import TSNE
import jieba
from gensim.models import Word2Vec# 示例文本数据
documents = ["我喜欢自然语言处理","自然语言处理是人工智能的一个分支","机器学习是自然语言处理的重要组成部分","我们可以使用word2vec来训练词向量","词嵌入技术在文本分类中非常有用"
]# 对文本数据进行分词处理
tokenized_documents = [list(jieba.cut(doc)) for doc in documents]# 训练word2vec模型
model = Word2Vec(sentences=tokenized_documents, vector_size=100, window=5, min_count=1, workers=4)# 获取词向量
words = list(model.wv.index_to_key)
word_vectors = model.wv[words]# 使用t-SNE降维
tsne = TSNE(n_components=2, perplexity=2)
word_vectors_2d = tsne.fit_transform(word_vectors)# 绘制词向量图
plt.figure(figsize=(12, 8))
plt.scatter(word_vectors_2d[:, 0], word_vectors_2d[:, 1])for i, word in enumerate(words):plt.annotate(word, xy=(word_vectors_2d[i, 0], word_vectors_2d[i, 1]))plt.show()

在这里插入图片描述

word2vec的高级应用

1. 文本分类

词嵌入在文本分类中有广泛的应用。通过将文本表示为词向量的平均值或其他聚合方式,可以有效地进行文本分类任务。

from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score
import jieba
import numpy as np
from gensim.models import Word2Vec
# 示例文本数据及标签
texts = ["我喜欢自然语言处理", "自然语言处理是人工智能的一个分支", "机器学习是自然语言处理的重要组成部分", "我们可以使用word2vec来训练词向量", "词嵌入技术在文本分类中非常有用"]
labels = [1, 1, 1, 0, 0]
model = Word2Vec.load("word2vec.model")
# 分词
tokenized_texts = [list(jieba.cut(text)) for text in texts]# 计算每个文本的平均词向量
def average_vector(tokens):vector = np.zeros(model.vector_size)count = 0for token in tokens:if token in model.wv:vector += model.wv[token]count += 1if count > 0:vector /= countreturn vectortext_vectors = np.array([average_vector(tokens) for tokens in tokenized_texts])# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(text_vectors, labels, test_size=0.2, random_state=42)# 训练分类模型
classifier = RandomForestClassifier(n_estimators=100)
classifier.fit(X_train, y_train)# 预测
y_pred = classifier.predict(X_test)# 计算准确率
accuracy = accuracy_score(y_test, y_pred)
y_test_str = ''.join(map(str, y_test))
y_pred_str = ''.join(map(str, y_pred))print("真实值:" + y_test_str)
print("预测值:" + y_pred_str)
print(f"文本分类准确率:{accuracy*100}%S")

在这里插入图片描述

2. 语义相似度计算

word2vec模型可以用于计算短文本之间的语义相似度,这在问答系统、推荐系统中非常有用。

import jieba
from gensim.models import Word2Vec
import numpy as np
from sklearn.metrics.pairwise import cosine_similarity# 示例文本数据
documents = ["我喜欢自然语言处理","自然语言处理是人工智能的一个分支","机器学习是自然语言处理的重要组成部分","我们可以使用word2vec来训练词向量","词嵌入技术在文本分类中非常有用"
]# 对文本数据进行分词处理
tokenized_documents = [list(jieba.cut(doc)) for doc in documents]# 训练word2vec模型
model = Word2Vec(sentences=tokenized_documents, vector_size=100, window=5, min_count=1, workers=4)# 示例短文本数据
text1 = "我喜欢自然语言处理"
text2 = "自然语言处理是人工智能的一个分支"# 分词
tokens1 = list(jieba.cut(text1))
tokens2 = list(jieba.cut(text2))# 计算每个文本的平均词向量
def average_vector(tokens):vector = np.zeros(model.vector_size)count = 0for token in tokens:if token in model.wv:vector += model.wv[token]count += 1if count > 0:vector /= countreturn vectorvector1 = average_vector(tokens1)
vector2 = average_vector(tokens2)# 计算余弦相似度
similarity = cosine_similarity([vector1], [vector2])[0][0]
print(f"‘{text1}’与‘{text2}’的相似度为:{similarity}")

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/45606.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【性能测试】第一节.性能测试基础

文章目录 前言一、性能测试概述二、常见的性能测试指标 2.1 并发 2.2 响应时间 2.3 事务 2.4 点击率 2.5 吞吐量 2.6 资源利用率三、性能测试的分类 3.1 一般性能测试 3.2 负载测试 3.3 压力测试 3.4 稳定性测试总结 前言 一…

CAS详解

文章目录 CAS使用示例Unsafe类实现原理CAS问题 CAS CAS全称为Compare and Swap被译为比较并交换,是一种无锁算法。用于实现并发编程中的原子操作。CAS操作检查某个变量是否与预期的值相同,如果相同则将其更新为新值。CAS操作是原子的,这意味…

【错题集-编程题】栈和排序(栈 + 贪心)

牛客对于题目连接:栈和排序_牛客题霸_牛客网 (nowcoder.com) 一、分析题目 每次尽可能的先让当前需要的最大值弹出去。 二、代码 // 修改后的代码 class Solution { public:/*** 代码中的类名、方法名、参数名已经指定,请勿修改,直接返回方…

【2024_CUMCM】Matlab快速入门

目录 常识 disp and input 字符串合并 sum 提取矩阵指定位置的元素 指定行列 指定行or指定列(返回行/列向量) 指定某些行 指定全部元素,按列拼接 size repmat 矩阵的运算 基本运算 形状相同的矩阵运算 每个元素同时和常数相乘或相…

C++相关概念和易错语法(19)(继承规则、继承下的构造和析构、函数隐藏)

1.继承规则 继承的本质是复用,是结构上的继承而不是内容上的继承,近似于在子类中声明了父类的成员变量。 (1)写法:class student : public person 派生类(子类),继承方式&…

泛二级泛目录多模板程序程序(泛目录和二级目录的区别)

泛解析站群_优化网站排名吸引百度蜘蛛必备程序主要功能: 1、网站支持无限生成页面不存在死链的风险每个也是不是网站栏目就是文章内容! 2、支持域名泛解析绑定,每个二级域名都是一个独立的 3、支持百度自动提交收录,每天随机自动提交无限自己…

echarts图表:类目轴

category 类目轴,适用于离散的类目数据。 例如商品名称、时间等。 类目轴上的每个刻度代表一个类目,刻度之间没有量的关系,只是简单的分类。 在类目轴上,数据点会对应到相应的类目上。

运行前端项目提示 run `npm fund` for details,如何解决?

经常出现在前端的一个小坑,分享一下技巧。 运行npm install命令终端提示: 107 packages are looking for funding run npm fund for details 解决方案: npm install --no-fund

Linux 进程 PID 管理

文章目录 1. 前言2. 进程 PID 相关数据结构3. 进程 PID 的构建3.1 第一个进程 PID 构建3.2 第二个进程 PID 的构建过程3.2.1 从当前进程复制进程 PID 信息3.2.2 创建每进程的 PID 管理数据 (struct pid) 并初始化3.2.3 绑定进程和其相关的 PID 管理数据 3.3 进程的 PID 建立过程…

【Oracle】实验三 Oracle数据库的创建和管理

【实验目的】 掌握Oracle数据库的创建方法使用DBCA创建数据库在数据库中装入SCOTT用户及其表 【实验内容】 使用DBCA创建数据库,名为MYDB,找到其初始化文件(文本型和服务器型文件都要找到),查看各类默认位置并记录下来(包括物理文件所在目…

LINUX系统编程:基于环形队列和信号量的生产者消费者模型

目录 1.环形队列 2.加上信号量的理解 3.代码 1.环形队列 环形队列使用vector封装出来的。 环形队列可以实现并发生产和消费,就是在消费的同时也可以生产。 这个是建立在生产者消费者位置不重合的情况下。 因为位置重合之后,环形队列为空或者满&#xf…

Linux DRM 那些事 - HDMI 接口 DTS 配置

本文基于RockPI 4A单板Debian系统 Linux 4.4 内核介绍DRM框架HDMI接口DTS配置。 在DTS中主要实现:HDMI的使能、VOP绑定、IOMUX引脚配置和HDMI控制器配置。 一、HDMI 配置 文件:arch/arm64/boot/dts/rockchip/rk3399-rock-pi-4.dtsi #include "rk3…

C++ 宏

C中的宏是一种预处理指令,用于在编译时将代码中的标识符替换为指定的文本。 #define 指令 1.无参宏定义 无参宏的宏名后不带参数。 其定义的一般形式为: #define 标识符 字符串 其中的“#”表示这是一条预处理命令。凡是以“#”开头的均为预处理命…

LLM 合成数据生成完整指南

大型语言模型是强大的工具,不仅可以生成类似人类的文本,还可以创建高质量的合成数据。这种能力正在改变我们进行 AI 开发的方式,特别是在现实世界数据稀缺、昂贵或隐私敏感的情况下。在本综合指南中,我们将探索 LLM 驱动的合成数据…

C语言——流程控制:if...else、switch...case

控制类语句: 逻辑运算符: 选择语句: if...else: if()括号内的内容终究会被转换成0,1,满足的话即为1,不满足的话为0。因此要注意,()括号内因为条件…

简单实现一个本地ChatGPT web服务(langchain框架)

简单实现一个本地ChatGPT 服务,用到langchain框架,fastapi,并且本地安装了ollama。 依赖安装: pip install langchain pip install langchain_community pip install langchain-cli # langchain v0.2 2024年5月最新版本 pip install bs4 pi…

ChatGPT摆脱“AI味”:全面提升写作质感

ChatGPT在各种写作、创作场景都发挥了很大的价值,即使中文语料库占比不到5%,也能生成流畅的中文文本。但随着使用的深入,大家也逐渐发现了机器生成的内容,往往带有一种僵硬、刻板的“AI味”,尤其在论文、自媒体写作中&…

算法力扣刷题记录 四十三【最大、最小深度问题】

前言 本文学习树的深度问题:二叉树(N叉树)最大深度、最小深度; 记录 三十九【层序遍历模版应用二】中解决过二叉树的最大深度和最小深度题目。思路是按层遍历: 最大深度,相当于层序遍历结束;…

ZBLOG程序怎么天收录?本人亲自试过请看以下教程(zblog怎么样)

您为管理员组,请查看下方隐藏内容! 先去ZBLOG官网下载ZBLOG程序 直达地址https://www.zblogcn.com/ 安装到宝塔里 安装好了之后打开zblog的后台 点开应用中心搜索CMS自适应资讯主题免费 安装即可 安装了之后配置主题内容 有经验者可以去吧动态改成…

pnpm9.5.0(catalog协议)

catalog(目录协议) 目录是工作区功能,用于将依赖版本范围定义为可重用常量,目录中定义的常量可以在package.json中使用, 结合 pnpm-workspace.yaml使用 定义pnpm-workspace.yaml packages:定义多仓库 packages:- packages/*cata…