python库(10):SpaCy库实现NLP处理

1 SpaCy简介

自然语言处理(NLP)是人工智能领域中一个重要的分支。它旨在使计算机能够理解、解释和生成人类语言。Python中的SpaCy库提供了丰富的功能和工具,SpaCy是一个开源的软件库,用于处理和操作自然语言文本,可以帮助我们轻松进行各种NLP任务。相比于其他NLP库,SpaCy的特点在于其高效性和易用性。它专为处理大规模文本数据而设计,拥有快速的管道处理能力,使得它在实际项目中非常实用。

2 SpaCy安装

首先通过pip来安装SpaCy。

pip install -i https://pypi.tuna.tsinghua.edu.cn/simple spacy

结果如下:

安装完成后,还需要下载SpaCy模型。模型包含了词汇表、语料库以及各种必需的数据资源。在这里,我们下载一个最常用的英语模型en_core_web_sm:

python -m spacy download en_core_web_sm

但是国内下载会失败,建议手动安装,下载地址如下:

Releases · explosion/spacy-models · GitHub

我这边下载的是en_core_web_lg-3.7.1

下载后到使用命令进行安装:

pip install F:/en_core_web_lg-3.7.1-py3-none-any.whl

注意:

模型后缀有sm/md/lg,sm/md/lg为描述大小的缩写:small(小)、medium(中)、large(大)。

也就是说en_core_web_sm、en_core_web_md、en_core_web_lg分别对应三种不同大小的nlp模型。主要差别在于准确率和加载时间

3 导入并加载模型

import spacy# 记在英文模型
nlp = spacy.load('en_core_web_lg')

4 基本功能

接下来,我们来看一些SpaCy的基本功能。

4.1 文本处理和标记化

SpaCy可以将一个文本分割成独立的标记(tokens),包括单词、标点符号等。

import spacy# 记在英文模型
nlp = spacy.load('en_core_web_lg')# 处理文本
text = "Hello, welcome to the world of natural language processing."
doc = nlp(text)# 打印标记化结果
for token in doc:print(token.text)

结果如下:

4.2 词性标注

SpaCy能够识别每个词的词性(如名词、动词、形容词等)。

import spacy# 记在英文模型
nlp = spacy.load('en_core_web_lg')# 处理文本
text = "Hello, welcome to the world of natural language processing."
doc = nlp(text)# 打印标记化结果
# for token in doc:
#     print(token.text)for token in doc:print(f'{token.text}: {token.pos_}')

结果如下:

4.3 命名实体识别

命名实体识别(NER)是指识别文本中具有特定意义的实体,如人名、地名、组织机构等。

import spacy# 记在英文模型
nlp = spacy.load('en_core_web_lg')# 处理文本
text = "Long live China"
doc = nlp(text)for ent in doc.ents:print(f'{ent.text}: {ent.label_}')

结果如下:

4.4 依存解析

SpaCy能够进行句法依存解析,以理解每个词在句子中的语法关系。

import spacy# 记在英文模型
nlp = spacy.load('en_core_web_lg')# 处理文本
text = "Hello, welcome to the world of natural language processing."
doc = nlp(text)for token in doc:print(f'{token.text}: {token.dep_} -> {token.head.text}')

结果如下:

5 高级功能

5.1 词向量

词向量(Word Vectors)是用于表示单词的高维向量,能够捕捉单词间的语义关系。SpaCy支持预训练的词向量,可以直接加载和使用。

这边我换了一个模型en_core_web_md,各位可以按照上面的步骤自行安装。

import spacy# 加载包含词向量的更大模型
nlp_large = spacy.load('en_core_web_md')# 获取词向量
doc_large = nlp_large("king queen man woman")
for token in doc_large:print(f'{token.text}: {token.vector[:5]}')

结果如下:

5.2 文本相似度

文本相似度计算是NLP中的常见任务之一,用于判断两个文本之间的相似程度。SpaCy的词向量可以用来计算句子或文档的相似度。

import spacy# 加载包含词向量的更大模型
nlp_large = spacy.load('en_core_web_md')doc1 = nlp_large("I love machine learning.")
doc2 = nlp_large("I enjoy artificial intelligence.")similarity = doc1.similarity(doc2)
print(f'Similarity: {similarity}')

结果如下:

5.3 自定义管道组件

SpaCy允许在其处理管道中添加自定义组件,以实现更个性化的处理。这对于特定任务非常有用。

import spacy
from spacy.language import Language@Language.component("my_component")
def my_component(doc):# Do something to the doc hereprint(f"Custom component processed:{doc}")return docnlp = spacy.load('en_core_web_lg')
nlp.add_pipe("my_component", name="print_info", last=True)
print(nlp.pipe_names)
doc = nlp("This is a sentence.")

结果如下:

5.4 训练自定义模型

SpaCy还允许用户训练自己的自定义NER模型。这对于处理特定领域的文本非常有用。以下是一个简单的示例,展示了如何训练一个自定义NER模型。

import spacy
import random
from spacy.training.example import Example# 创建空白模型
nlp = spacy.blank("en")# 添加NER管道
ner = nlp.add_pipe("ner")# 添加自定义实体标签
ner.add_label("GADGET")# 定义训练数据
TRAIN_DATA = [("Apple releases new iPhone.", {"entities": [(14, 20, "GADGET")]}),("Google launches new Pixel phone.", {"entities": [(21, 26, "GADGET")]})
]# 开始训练
nlp.begin_training()
for i in range(10):random.shuffle(TRAIN_DATA)losses = {}for text, annotations in TRAIN_DATA:doc = nlp.make_doc(text)example = Example.from_dict(doc, annotations)nlp.update([example], losses=losses)print(losses)# 测试自定义模型
doc = nlp("Amazon announces new Kindle.")
for ent in doc.ents:print(ent.text, ent.label_)

结果如下:

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/45438.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

BM42:混合搜索的新基准 - Qdrant

在过去的 40 年里,BM25 一直是搜索引擎的标准。它是一种简单但功能强大的算法,已被许多搜索引擎使用,包括 Google、Bing 和 Yahoo。 虽然看起来向量搜索的出现会削弱其影响力,但效果并不明显。目前最先进的检索方法试图将 BM25 与…

python库(11):Box库简化字典和对象之间的转换

1Box库简介 Box是一个Python库,它提供了一种将数据封装在字典和列表中的方式,同时提供了一些额外的功能,比如数据验证、默认值设置等。这使得Box库非常适合用于配置管理、数据传输对象(DTO)的创建,以及任何…

sqlmap使用之-post注入、head注入(ua、cookie、referer)

1、post注入 1.1、方法一,通过保存数据包文件进行注入 bp抓包获取post数据 将数据保存到post.txt文件 加上-r指定数据文件 1.2、方法二、通过URL注入 D:\Python3.8.6\SQLmap>python sqlmap.py -u "http://localhost/login.php" --data "userna…

替换:show-overflow-tooltip=“true“ ,使用插槽tooltip,达到内容可复制

原生的show-overflow-tooltip“true” 不能满足条件&#xff0c;使用插槽自定义编辑&#xff1b; 旧code <el-table-column prop"reason" label"原因" align"center" :show-overflow-tooltip"true" /> <el-table-column pro…

压缩文件的解析方式

Java中我们用ZipInputStream和ZipOutputStream来完成对zip文件和rar文件的读写 I /O流&#xff1a; Input:输入&#xff0c;通过“输入流”进行文件的读取操作 output:输出&#xff0c;通过“输出流”进行文件的写入操作 一、将压缩包解压缩 1.解压缩.zip格式文件&#xf…

微信小程序毕业设计-汽车维修项目管理系统项目开发实战(附源码+论文)

大家好&#xff01;我是程序猿老A&#xff0c;感谢您阅读本文&#xff0c;欢迎一键三连哦。 &#x1f49e;当前专栏&#xff1a;微信小程序毕业设计 精彩专栏推荐&#x1f447;&#x1f3fb;&#x1f447;&#x1f3fb;&#x1f447;&#x1f3fb; &#x1f380; Python毕业设计…

NoSQL 之Redis集群模式

一&#xff1a;Redis集群方式 Redis有三种模式&#xff1a;分别是主从复制、哨兵模式、Cluster 1&#xff1a;主从模式: 主从复制是高可用Redis的基础&#xff0c;哨兵和群集都是在主从复制基础上实现高可用的。主从复制主要实现了数据的多机备份&#xff0c;以及对于读操作的…

netscaler LDAP+RADIUS传统的双因素认证方式(之一)

如果使用传统的双因素认证方式&#xff0c;可以通过在Citrix ADC (NetScaler) 13.1上配置Gateway Virtual Server来实现LDAP和RADIUS的双因素认证。当前配置方式&#xff0c;采用Cateway vServer两个Basic Authtication Policy方式实现&#xff0c;以下是详细步骤&#xff1a; …

【码题集】习题

目录 史莱姆融合 松鼠接松果 新月轩就餐 史莱姆融合 根据题意就是一道集合合并的题&#xff0c;所以要用并查集&#xff0c;不过最后我们要输出整个序列&#xff0c;所以要在合并的时候维护一个链表&#xff0c;以便最终合并成一个大集合的时候&#xff0c;输出整个链表就是…

Kotlin Misk Web框架

Kotlin Misk Web框架 1 添加依赖1.1 build.gradle.kts1.2 settings.gradle.kts1.3 gradle.properties 2 请求接口3 程序模块4 主服务类5 测试结果 Misk 是由 Square 公司开发的一个开源的多语言服务器框架&#xff0c;主要用于构建微服务。它主要使用 Kotlin 语言&#xff0c;但…

UGC与AI引领的下一个10年,丝芭传媒已经准备好

丝芭传媒最近传来的消息&#xff0c;都跟技术相关。 基于自研AI大模型“Paro&#xff08;心乐舞河&#xff09;”的AIGPT及AIGC生成工具APP“鹦鹉人”开启用户内测。2023年3月技术测试的图形化智能社交基座“美踏元宇宙”&#xff0c;也将开放首轮用户内测。 此外&#xff0c…

Studying-代码随想录训练营day31| 56.合并区间、738.单调递增的数字、968.监控二叉树、贪心算法总结

第31天&#xff0c;贪心最后一节(ง •_•)ง&#x1f4aa;&#xff0c;编程语言&#xff1a;C 目录 56.合并区间 738.单调递增的数字 968.监控二叉树 贪心算法总结 56.合并区间 文档讲解&#xff1a;代码随想录合并区间 视频讲解&#xff1a;手撕合并区间 题目&#xf…

高效图纸管理:彩虹图纸管理软件助您一臂之力

高效图纸管理&#xff1a;彩虹图纸管理软件助您一臂之力 在制造业的激烈竞争中&#xff0c;高效图纸管理是企业提升竞争力和降低成本的关键。然而&#xff0c;传统的图纸管理方式往往存在效率低下、信息混乱等问题。此时&#xff0c;彩虹图纸管理软件凭借其卓越的性能和丰富的功…

一个vue页面复用方案

前言 问大家一个问题&#xff0c;曾经的你是否也遇到过&#xff0c;一个项目中有好几个页面长得基本相同&#xff0c;但又差那么一点&#xff0c;想用 vue extends 继承它又不能按需继承html模板部分&#xff0c;恰好 B 页面需要用的 A 页面 80% 的模板&#xff0c;剩下的 20%…

【验收支撑】软件系统验收计划书(直接套用原件doc)

编写软件验收计划是软件开发过程中的一个关键步骤&#xff0c;其重要性体现在以下几个方面&#xff1a; 明确验收标准&#xff1a;软件验收计划详细列出了验收的标准、测试方法、测试环境等&#xff0c;确保所有相关人员对验收的期望和要求有清晰的认识。这有助于避免在验收阶段…

triton需要cuda11.8版本--so 安装个11.8的cuda

1.安装一个11.8的cuda 查看ubunto版本 lsb_release -a查看cpu架构 uname -m到官网得到相应的命令&#xff1a;CUDA Toolkit Archive | NVIDIA Developer 依次输入两条命令。如果没有没有sudo权限就将cuda安装路径修改在自己目录下&#xff1a; sh cuda_11.8.0_520.61.05_li…

论文AIGC率超标?一键降重快速搞定

如何有效降低AIGC论文的重复率&#xff0c;也就是我们说的aigc如何降重&#xff1f;AIGC疑似度过高确实是个比较愁人的问题。如果你用AI帮忙写了论文&#xff0c;就一定要在交稿之前做一下AIGC降重的检查。一般来说&#xff0c;如果论文的AIGC超过30%&#xff0c;很可能会被判定…

【EI征稿】第四届机器人、自动化与智能控制国际会议

【快速通道】 参会方式&#xff1a;担任会议committee成员、组建workshop 、参会报告、参会交流、审稿专家、投稿参会。 会议地点&#xff1a; 湖南 长沙 会议时间&#xff1a;12月6日-9日 会议检索&#xff1a;EI检索 会议官网&#xff1a;https://www.icraic.org/ 投稿链接&a…

华为910b推理Qwen1.5-72b

前情提要&#xff1a;华为910b部署训练推理大模型&#xff0c;本人之前并没有接触过&#xff0c;所以&#xff0c;写此文档进行记录。 &#xff08;注意&#xff1a;版本适配很重要&#xff01;&#xff01;不然就像我一样走了好多坑~~~&#xff09; 首先&#xff0c;看一张图…

大鲸鱼—docker 基本概念及安装使用

目录 一、docker前言 1.什么是Docker&#xff1f; 2.Docker的宗旨 3.容器的优点 4.Docker与虚拟机的区别 5.Docker核心概念 镜像 容器 仓库 6.为什么要用容器 7.容器越来越受欢迎的原因 8.容器在内核中支持2种重要技术 二、Docker安装 三、Docker 镜像操作 1.搜…