【自然语言处理】P3 spaCy 与 NLTK(分词、词形还原与词干提取)以及 Porter 和 Snowball

目录

  • 准备工作
    • spaCy
    • NLTK
  • 文本分词
    • spaCy
    • NLTK
  • 词形还原
    • spaCy
    • NLTK
  • 词干提取
    • Porter
    • Snowball stemmers

在自然语言处理(NLP)中,文本分词是将文本拆分为单词或词组的过程,这是理解文本含义和结构的基础。Python中两个流行库——spaCy和NLTK(Natural Language Toolkit),都提供了分词功能。下面将详细介绍如何使用这两个库进行文本分词等操作。

准备工作

spaCy

如果没有安装 spaCy 库,请安装:

# 安装spaCy库
pip install spacy

安装好 spaCy 库后,下载语言模型:

# 安装语言模型数据包(案例为下载英文包)
python -m spacy download en_core_web_sm

常用的语言模型还包含:中文模型(zh_core_web_sm)
更多语言模型请见:https://spacy.io/models

完成库的安装以及英文包的下载。


NLTK

首先安装 NLTK 库:

# 安装 NTLK 库
pip install nltk

下载语言模型:

import nltknltk.download('stopwords')
nltk.download('averaged_perceptron_tagger')
nltk.download('punkt')

完成 NLTK 库的安装以及包的下载。


文本分词

spaCy

首先展示使用库 spaCy 进行分词:

import spacy# 加载英文语料库
nlp = spacy.load('en_core_web_sm')
text = "Natural Language Processing is a subfield of linguistics, computer science and artificial intelligence"
# 进行分词操作
doc = nlp(text)result = []
for token in doc:result.append(token)print(result)

NLTK

展示使用库 NLTK 进行分词:

from nltk.tokenize import word_tokenizetext = "Natural Language Processing is a subfield of linguistics, computer science and artificial intelligence"
# 进行分词操作
tokens = word_tokenize(text)result = []
for token in tokens:result.append(token)print(result)

词形还原

词形还原是一项重要的文本预处理技术,旨在去除词形变化,返回单词的基本形式。这有助于统一词汇在不同语境中的表现形式,使得后续的语言分析更加准确。同样,我们将尝试使用 spaCy 以及 NLTK 库实现词形还原操作。

spaCy

首先展示通过 spaCy 的 doc[0].lemma_ 进行词形还原:

import spacynlp = spacy.load('en_core_web_sm')# 获取词形还原结果
def get_lemmatization(word_list):lemmatized_list = []for word in word_list:doc = nlp(word)lemmatized_word = doc[0].lemma_lemmatized_list.append(lemmatized_word)return lemmatized_listif __name__ == '__main__':test_word_list = ["men", "computers", "ate", "running", "fancier"]result_word_list = get_lemmatization(test_word_list)print(result_word_list)

NLTK

然后展示通过 NLTK 库的 WordNetLemmatizer 函数进行词形还原:

import nltk
from nltk.stem import WordNetLemmatizer# nltk.download("wordnet")
# nltk.download("averaged_perceptron_tagger")lemmatizer = WordNetLemmatizer()test_word_list = ["men", "computers", "ate", "running", "fancier"]
result = [lemmatizer.lemmatize(word) for word in test_word_list]print(result)

对比使用 spaCy 的分词结果以及使用 NLTK 词形还原结果为:

# spaCy:
['man', 'computer', 'eat', 'run', 'fancy']
# NLTK:
['men', 'computer', 'ate', 'running', 'fancier']

对比来看,明显 spaCy 的词形还原效果更好一些;

当然,除了 spaCy 以及 NLTK 可以进行词形还原外,还有另外一些方法,比如 Porter 和 Snowball stemmers 的词干提取法,请见下个部分。


词干提取

词干提取是一种简单形式的词形还原。它涉及使用手工制作的规则来剥去单词的词尾,将其简化成一种叫做词干的常见形式。

Porter

Porter Stemmer 是一个简单的词干提取算法,它通过一系列规则来减少单词到其词干形式。这个算法包括以下几个步骤:

  1. 删除单词末尾的辅音字母序列,直到剩下至少两个字符。
  2. 如果单词以元音字母结尾,删除这个元音字母。
  3. 如果单词长度大于2,且以元音字母开头,则将第一个辅音字母移到词干的开头。

Porter stemmer 示例代码如下:

from nltk.stem import PorterStemmer# 创建 PorterStemmer 实例
stemmer = PorterStemmer()test_word_list = ["running", "jumped", "eating", "playing"]
stemmed_words = [stemmer.stem(word) for word in test_word_list]print(stemmed_words)

Snowball stemmers

Snowball Stemmer 是一个更复杂的词干提取算法,它是 Porter Stemmer 的改进版本,支持多种语言。Snowball Stemmer 采用了 Porter Stemmer 的基本思想,并添加了更多的规则和改进,以提高提取的准确性。

Snowball stemmers 示例代码如下:

from nltk.stem import SnowballStemmer# 选择语言,创建实例
stemmer = SnowballStemmer("english")test_word_list = ["running", "jumped", "eating", "playing"]
stemmed_words = [stemmer.stem(word) for word in test_word_list]print(stemmed_words)

在选择词干提取或词形还原的方法时,需要根据具体需求来决定。词干提取通常用于简化单词,而词形还原则是更加注重保持单词的意义。

  • 建议如果主要目标是简化单词以减少词汇量或提高文本分析的效率,词干提取更加适合;
  • 而如果主要目标是更精确的词义分析,那么词形还原可能是更好的选择。

发布:2024/2/2
版本:第一版
如有任何疑问,请联系我,谢谢!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/665213.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

ThreadLocal父子线程传递上下文参数

自定义ThreadLocal继承InheritableThreadLocal并且实现childValue方法, 可以在子线程中也使用到主线程设置在ThreadLocal中的数据,如下所示: /*** 使用自定义MyInheritableThreadLocal实现了InheritableThreadLocal重写了childValue的目的* …

2024022期传足14场胜负前瞻

2024022期赛事由英超4场,德甲2场、意甲4场、西甲4场组成。售止时间为2月4日(周日)19点00分,敬请留意: 本期中深盘较多,1.5以下赔率3场,1.5-2.0赔率7场,其他场次是平半盘、平盘。本期…

TCP 协议的相关特性

1. TCP格式 TCP特性:有连接,全双关,面向字节流,可靠传输。(TCP安身立命的本钱,初心就是解决“可靠传输”问题) 其实TCP的特征有很多这里我就简单的介绍几个。 2. 确认应答 其实用来确保可靠性&…

mysql的hash排序和例子

哈希索引(hash index),基于哈希表实现,只有精确匹配索引所有列的查询才有效。对于每⼀⾏数据,存储引擎都会对所有的索引列计算⼀个哈希码(hash code), 哈希码是⼀个较⼩的值,并且不同键值的⾏计算出来的哈希码也不⼀样。哈希索引将…

Java并发基础:CountDownLatch全面解析!

内容概要 CountDownLatch的优点在于能够简洁高效地协调多个线程的执行顺序,确保一组线程都完成后才触发其他线程的执行,适用于资源加载、任务初始化等场景。它提供了清晰的等待/通知机制,易于理解和使用,是提升多线程程序性能和可…

HttpSession

HTTP概述 HTTP无状态协议和服务器端状态管理 HttpSession 一个用户有且最多有一个 HttpSession,并且不会被其他用户访问到。HttpSession 对象在用户第一次访问网站时自动被创建,你可以通过调用 HttpServeltRequest 的 getSession() 方法获得该对象。 …

mybatis基础操作(一)

mybatis介绍 mybatis为半自动的ORM框架 ORM:对象关系映射,将java中的一个对象与数据表中的一行记录一一对应。支持自定义sql,存储过程。 对原有jdbc进行封装,几乎消除所有jdbc代码,让开发者只需关注sql本身。 支持xml和注解配…

如何在 Mac 上重置网络设置

如何在 Mac 上重置网络设置 Mac 几乎在所有时间都非常可靠,但有时您在连接到互联网时可能会遇到困难或浏览速度缓慢。 互联网可能在您的其他设备上正常工作,这可能很烦人。 通常,问题的原因是什么并不明显,甚至根本不存在。 如果…

面试数据结构与算法总结分类+leetcode题目目录【基础版】

🧡🧡🧡算法题目总结: 这里为大家总结数据结构与算法的题库目录,如果已经解释过的题目会标注链接更新,方便查看。 数据结构概览 Array & String 大家对这两类肯定比较清楚的,同时这也是面试…

Java基础—反射

Java基础-反射 前置知识动态语言JVM堆Java引用变量类型编译时类型运行时类型举栗特殊情况 RRTI概念为什么需要RTTI例子 Class类对象前置知识类加载器概念作用 Class类对象的概念Class类对象的总结 总结一下前置知识 反射基础概念为什么要学反射我需要学到什么程度 反射的基础内…

GMT绘图笔记

(1)图框设置。在利用GMT绘制图件时,需要设置边框的类型,字体的大小,标记距离边框的距离。主要涉及的参数有: gmt set MAP_FRAME_TYPE plain/fancy 可以调整边框为火车轨道或者线段。 (2)调整图框的粗细:主要是包含有…

GoogleTest 单元测试

假设我们有两个函数 complexFunction 和 helperFunction,其中 complexFunction 调用了 helperFunction。我们将编写测试 complexFunction 的单元测试,并在调用 helperFunction 的地方打桩。 // 复杂函数示例 int helperFunction(int x) {return x * 2; …

openssl自签名CA根证书、服务端和客户端证书生成并模拟单向/双向证书验证

1. 生成根证书 1.1 生成CA证书私钥 openssl genrsa -aes256 -out ca.key 2048 1.2 取消密钥的密码保护 openssl rsa -in ca.key -out ca.key 1.3 生成根证书签发申请文件(csr文件) openssl req -new -sha256 -key ca.key -out ca.csr -subj "/CCN/STFJ/LXM/ONONE/OU…

WiFi测试的核心思路和主要工具

目录 性能: 最主要的测试工具是2个:Iperf,Chariot 测试setup:OTA VS Cable: 测试数据类型 TCP VS UDP: 抓包工具:Macbook Wireshark: 功能: Wi-Fi Alliance tes…

解决vue3+ts打包,ts类型检查报错导致打包失败,goview打包报错options

最近拉的开源大屏项目goview,在打包的过程中一直报Ts类型报错导致打包失败,项目的打包命令为: “build”: “vue-tsc --noEmit && vite build” 是因为 vue-tsc --noEmit 是 TypeScript 编译器(tsc)的命令&…

Ubuntu 22.04 上安装和使用 Go

1.下载  All releases - The Go Programming Language //https://golang.google.cn/dl/wget https://golang.google.cn/dl/go1.21.6.linux-amd64.tar.gz 2.在下载目录下执行,现在,使用以下命令将文件提取到 “/usr/local ” 位置 sudo tar -C /usr/…

Mov转MP4怎么转换?如何播放mov视频?

MOV文件格式的使用场景 MOV文件格式以其支持多种媒体数据类型的特性而闻名,包括视频、音频、文本、动画等。它常用于存储包含视频剪辑、电影、音频轨道等多媒体元素的文件。由于其在质量和编辑方面的优越性,MOV文件在电影制作、广告宣传、多媒体演示等领…

MySQL篇----第三篇

系列文章目录 文章目录 系列文章目录前言一、InnoDB与MyISAM的区别二、索引三、常见索引原则有前言 前些天发现了一个巨牛的人工智能学习网站,通俗易懂,风趣幽默,忍不住分享一下给大家。点击跳转到网站,这篇文章男女通用,看懂了就去分享给你的码吧。 一、InnoDB与MyISAM…

【华为】GRE VPN 实验配置

【华为】GRE VPN 实验配置 前言报文格式 实验需求配置思路配置拓扑GRE配置步骤R1基础配置GRE 配置 ISP_R2基础配置 R3基础配置GRE 配置 PCPC1PC2 抓包检查OSPF建立GRE隧道建立 配置文档 前言 VPN :(Virtual Private Network),即“…

头歌C++之函数应用

目录 第1关:编写函数Inc使实参的值加1 本关必读 本关任务 测试说明 第2关:编写内联函数求圆的面积 本关必读 本关任务 测试说明 第3关:编写内联函数求两整数的较小值 本关必读 本关任务