20250324-使用 `nltk` 的 `sent_tokenize`, `word_tokenize、WordNetLemmatizer` 方法时报错

解决使用 nltksent_tokenize, word_tokenize、WordNetLemmatizer 方法时报错问题

第 2 节的手动方法的法1可解决大部分问题,可首先尝试章节 2 的方法

1. nltk.download(‘punkt_tab’)

LookupError: 
**********************************************************************Resource punkt_tab not found.Please use the NLTK Downloader to obtain the resource:>>> import nltk>>> nltk.download('punkt_tab')For more information see: https://www.nltk.org/data.html  Attempted to load tokenizers/punkt_tab/english/Searched in:- 'C:\\Users\\chenw/nltk_data'- 'D:\\RuanJianAPP\\anaconda3\\envs\\NLP-30820\\nltk_data'- 'D:\\RuanJianAPP\\anaconda3\\envs\\NLP-30820\\share\\nltk_data'- 'D:\\RuanJianAPP\\anaconda3\\envs\\NLP-30820\\lib\\nltk_data'- 'C:\\Users\\chenw\\AppData\\Roaming\\nltk_data'- 'C:\\nltk_data'- 'D:\\nltk_data'- 'E:\\nltk_data'
**********************************************************************

根据提示可手动或自动处理这一报错

1) 运行命令(不是每个人都能成功

your_path 换为你想安装的文件地址(必须是上面所显示的任一路径)

import nltk
nltk.download('punkt_tab', download_dir=your_path)

可以使用一下方法检查 NLTK 数据路径

import nltk
print(nltk.data.find('tokenizers/punkt_tab'))

2) 手动

首先,从官网下载文件

NLTK Corpora: https://www.nltk.org/nltk_data/

在官网页面搜索 punkt_tab ,在第 77 条:Punkt Tokenizer Models [ download | source ] 点击 download 下载。
在这里插入图片描述
之后,(我使用的是提示的第四条路径)在上面提示路径中的任意一个路径中,在 ..../lib 文件夹下新建 nltk_data/tokenizers 文件夹。

然后,将下载的文件解压到 tokenizers 文件夹下:
在这里插入图片描述
最后,试运行一下是不会报错的(只要没有哪一步出错)

2. nltk.download(‘wordnet’)

WordNetLemmatizer().lemmatize()

LookupError: 
**********************************************************************Resource wordnet not found.Please use the NLTK Downloader to obtain the resource:>>> import nltk>>> nltk.download('wordnet')For more information see: https://www.nltk.org/data.htmlAttempted to load corpora/wordnetSearched in:- 'C:\\Users\\chenw/nltk_data'- 'D:\\RuanJianAPP\\anaconda3\\envs\\NLP-30820\\nltk_data'- 'D:\\RuanJianAPP\\anaconda3\\envs\\NLP-30820\\share\\nltk_data'- 'D:\\RuanJianAPP\\anaconda3\\envs\\NLP-30820\\lib\\nltk_data'- 'C:\\Users\\chenw\\AppData\\Roaming\\nltk_data'- 'C:\\nltk_data'- 'D:\\nltk_data'- 'E:\\nltk_data'
**********************************************************************

同样也是分手动和自动,按照上述的方法

1) 运行命令(不是每个人都能成功

punkt_tab 的处理方法类似

import nltk
nltk.download('wordnet', download_dir=your_path)

2) 手动

法1:直接从下面的链接中下载语料库(推荐

nltk_data: https://github.com/nltk/nltk_data

将下载好的包解压,解压后包中 packages 中的所以文件复制到 nltk_data 文件夹中


在这里插入图片描述


在这里插入图片描述


tokenizers\punkt_tab.zip 文件需要解压,之后无关文件可删除

在这里插入图片描述

可参考文章:nltk.download(‘wordnet‘)错误;Resource wordnet not found. Please use the NLTK Downloader to obtain th

法2:与 1. nltk.download('punkt_tab') 的手动操作方法相同

NLTK Corpora 的 114 个压缩包(我没试过,文件太大,下载太慢)

在这里插入图片描述


3. 验证数据包是否下载成功

from nltk.tokenize import word_tokenize
text = "This are some sample sentences to test the tokenizer."
tokens = word_tokenize(text)
print(tokens)
['This', 'are', 'some', 'sample', 'sentences', 'to', 'test', 'the', 'tokenizer', '.']
from nltk import WordNetLemmatizer
lemmatizer = WordNetLemmatizer() # 词形还原器
wordlist = [] # 存储词形还原后单词的列表# 对每个单词进行词形还原
for word in tokens:# 这里默认词性为名词("n"),可以根据需要扩展到其他词性# 例如:使用词性标注工具(如 nltk.pos_tag)来确定单词的词性lemma_word = lemmatizer.lemmatize(word, pos="n")wordlist.append(lemma_word)print(wordlist)
['This', 'are', 'some', 'sample', 'sentence', 'to', 'test', 'the', 'tokenizer', '.']

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/74344.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

『 C++ 』多线程同步:条件变量及其接口的应用实践

文章目录 条件变量概述条件变量简介条件变量的基本用法 案例:两个线程交替打印奇偶数代码解释 std::unique_lock::try_lock_until 介绍代码示例代码解释注意事项 std::condition_variable::wait 详细解析与示例std::condition_variable::wait 接口介绍代码示例代码解…

【VolView】纯前端实现CT三维重建-CBCT

文章目录 什么是CBCTCBCT技术路线使用第三方工具使用Python实现使用前端实现 纯前端实现方案优缺点使用VolView实现CBCT VolView的使用1.克隆代码2.配置依赖3.运行4.效果 进阶:VolView配合Python解决卡顿1.修改VtkThreeView.vue2.新增Custom3DView.vue3.Python生成s…

debug - 安装.msi时,为所有用户安装程序

文章目录 debug - 安装.msi时,为所有用户安装程序概述笔记试试在目标.msi后面直接加参数的测试 备注备注END debug - 安装.msi时,为所有用户安装程序 概述 为了测试,装了一个test.msi. 安装时,只有安装路径的选择,没…

Java Stream两种list判断字符串是否存在方案

这里写自定义目录标题 背景初始化方法一、filter过滤方法二、anyMatch匹配 背景 在项目开发中,经常遇到筛选list中是否包含某个子字符串,有多种方式,本篇主要介绍stream流的filter和anyMatch两种方案,记录下来,方便备…

DeepSeek vs 通义大模型:谁将主导中国AI的未来战场?

当你在深夜调试代码时,是否幻想过AI伙伴能真正理解你的需求?当企业面对海量数据时,是否期待一个真正智能的决策大脑? 这场由DeepSeek和通义领衔的大模型之争,正在重塑中国AI产业的竞争格局。本文将为你揭开两大技术巨头的终极对决! 一、颠覆认知的技术突破 1.1 改变游戏…

3. 轴指令(omron 机器自动化控制器)——>MC_SetOverride

机器自动化控制器——第三章 轴指令 12 MC_SetOverride变量▶输入变量▶输出变量▶输入输出变量 功能说明▶时序图▶重启运动指令▶多重启动运动指令▶异常 MC_SetOverride 变更轴的目标速度。 指令名称FB/FUN图形表现ST表现MC_SetOverride超调值设定FBMC_SetOverride_instan…

从像素到世界:自动驾驶视觉感知的坐标变换体系

接着上一篇 如何让自动驾驶汽车“看清”世界?坐标映射与数据融合详解的概述,这一篇详细讲解自动驾驶多目视觉系统设计原理,并给出应用示例。 摘要 在自动驾驶系统中,准确的环境感知是实现路径规划与决策控制的基础。本文系统性地解析图像坐标系、像素坐标系、相机坐标系与…

附录B ISO15118-20测试命令

本章节给出ISO15118-20协议集的V2G命令,包含json、xml,并且根据exiCodec.jar编码得到exi内容, 读者可以参考使用,测试编解码库是否能正确编解码。 B.1 supportedAppProtocolReq json: {"supportedAppProtocolReq": {…

VLAN章节学习

为什么会有vlan这个技术? 1.通过划分广播域来降低广播风暴导致的设备性能下降; 2.提高网络管理的灵活性和通过隔离网络带来的安全性; 3.在成本不变的情况下增加更多的功能性; VLAN又称虚拟局域网(再此扩展&#xf…

FPGA时钟约束

提示&#xff1a;文章写完后&#xff0c;目录可以自动生成&#xff0c;如何生成可参考右边的帮助文档 目录 前言 一、Create_clock 前言 时钟周期约束&#xff0c;就是对时钟进行约束。 一、Create_clock create_clock -name <name> -period <period> -waveform …

机房布局和布线的最佳实践:如何打造高效、安全的机房环境

机房布局和布线的最佳实践:如何打造高效、安全的机房环境 大家好,我是Echo_Wish。今天我们来聊聊机房布局和布线的问题,这可是数据中心和IT运维中的一个非常重要的环节。不管是刚刚接触运维的新人,还是已经摸爬滚打多年的老兵,都应该对机房的布局和布线有一个清晰的认识。…

spring-security原理与应用系列:建造者

目录 1.构建过程 AbstractSecurityBuilder AbstractConfiguredSecurityBuilder WebSecurity 2.建造者类图 SecurityBuilder ​​​​​​​AbstractSecurityBuilder ​​​​​​​AbstractConfiguredSecurityBuilder ​​​​​​​WebSecurity 3.小结 紧接上一篇文…

OpenHarmony子系统开发 - 电池管理(二)

OpenHarmony子系统开发 - 电池管理&#xff08;二&#xff09; 五、充电限流限压定制开发指导 概述 简介 OpenHarmony默认提供了充电限流限压的特性。在对终端设备进行充电时&#xff0c;由于环境影响&#xff0c;可能会导致电池温度过高&#xff0c;因此需要对充电电流或电…

xy轴不等比缩放问题——AUTOCAD c#二次开发

在 AutoCAD .net api里&#xff0c;部分实体&#xff0c;像文字、属性、插入块等&#xff0c;是不支持非等比缩放的。 如需对AutoCAD中图形进行xyz方向不等比缩放&#xff0c;则需进行额外的函数封装。 选择图元&#xff0c;指定缩放基准点&#xff0c;scaleX 0.5, scaleY …

如何在 HTML 中创建一个有序列表和无序列表,它们的语义有何不同?

大白话如何在 HTML 中创建一个有序列表和无序列表&#xff0c;它们的语义有何不同&#xff1f; 1. HTML 中有序列表和无序列表的基本概念 在 HTML 里&#xff0c;列表是一种用来组织信息的方式。有序列表就是带有编号的列表&#xff0c;它可以让内容按照一定的顺序呈现&#…

kafka的文章

1.面试的问题 要点 至多一次、恰好一次数据一致性超时重试、幂等消息顺序消息挤压延时消息 1.1 kafaka 生产消息的过程。 在消息发送的过程中&#xff0c;涉及到了两个线程&#xff0c;一个是main 线程&#xff0c;一个是sender 线程。在main 线程中创建了一个双端队列 Reco…

以mysql 为例,增删改查语法及其他高级特性

以下是 MySQL 的 增删改查语法及 高级特性的详细整理&#xff0c;结合示例说明&#xff1a; 1. 基础操作&#xff08;CRUD&#xff09; (1) 创建数据&#xff08;INSERT&#xff09; -- 单条插入 INSERT INTO users (id, name, email) VALUES (1, Alice, aliceexample.com);…

Postman最新详细安装及使用教程【附安装包】

一、Postman介绍 ‌Postman是一个功能强大的API测试工具&#xff0c;主要用于模拟和测试各种HTTP请求&#xff0c;支持GET、POST、PUT、DELETE等多种请求方法。‌通过Postman&#xff0c;用户可以发送请求并查看返回的响应&#xff0c;检查响应的内容和状态&#xff0c;从而验…

第十三章 : Names in Templates_《C++ Templates》notes

Names in Templates 重难点多选题设计题 重难点 1. 名称分类与基本概念 知识点&#xff1a; 限定名&#xff08;Qualified Name&#xff09;&#xff1a;使用::或.显式指定作用域的名称&#xff08;如std::vector&#xff09;非限定名&#xff08;Unqualified Name&#xff0…

整合vue+Element UI 开发管理系统

1、 安装 Node.js 和 npm 确保安装了 Node.js 和 npm。可以通过 Node.js 官网 下载。 2、 创建 Vue 项目 安装cli npm install -g vue/cli 使用 Vue CLI 创建一个新的 Vue 项目。 vue create admin-system cd admin-system npm run serve 出现这个页面表示vue创建成功 安…