python去停用词用nltk_【NLTK】安装和使用NLTK分词和去停词

黄聪:Python+NLTK自然语言处理学习(一):环境搭建

http://www.cnblogs.com/huangcong/archive/2011/08/29/2157437.html

安装NLTK可能出现的问题:

1. pip install ntlk

2. 如果遇到缺少stopwords报错如下:(http://johnlaudun.org/20130126-nltk-stopwords/)

LookupError:

**********************************************************************

Resource u'corpora/stopwords' not found. Please use the

NLTK Downloader to obtain the resource: >>> nltk.download()

Searched in:

- 'C:\\Users\\Tree/nltk_data'

- 'C:\\nltk_data'

- 'D:\\nltk_data'

- 'E:\\nltk_data'

- 'F:\\Program Files (x86)\\python\\nltk_data'

- 'F:\\Program Files (x86)\\python\\lib\\nltk_data'

- 'C:\\Users\\Tree\\AppData\\Roaming\\nltk_data'

**********************************************************************

则有一下输入:

In[3]: import nltk

In[4]: nltk.download()

showing info http://www.nltk.org/nltk_data/

弹出窗口:

19095504_5yog.jpg 选择Corpora 然后找到stopword list确认,刷新

Out[4]: True

3.如果遇到缺少punkt报错如下:

LookupError:

**********************************************************************

Resource u'tokenizers/punkt/english.pickle' not found. Please

use the NLTK Downloader to obtain the resource:

>>>nltk.download()

Searched in:

- 'C:\\Users\\Tree/nltk_data'

- 'C:\\nltk_data'

- 'D:\\nltk_data'

- 'E:\\nltk_data'

- 'F:\\Program Files (x86)\\python\\nltk_data'

- 'F:\\Program Files (x86)\\python\\lib\\nltk_data'

- 'C:\\Users\\Tree\\AppData\\Roaming\\nltk_data'

**********************************************************************

解决方法

In[5]: nltk.download('punkt')

[nltk_data] Downloading package punkt to

[nltk_data] C:\Users\Tree\AppData\Roaming\nltk_data...

[nltk_data] Unzipping tokenizers\punkt.zip.

Out[5]: True

文章:http://www.52nlp.cn/%E5%A6%82%E4%BD%95%E8%AE%A1%E7%AE%97%E4%B8%A4%E4%B8%AA%E6%96%87%E6%A1%A3%E7%9A%84%E7%9B%B8%E4%BC%BC%E5%BA%A6%E4%B8%89 文章: http://www.52nlp.cn/%E5%A6%82%E4%BD%95%E8%AE%A1%E7%AE%97%E4%B8%A4%E4%B8%AA%E6%96%87%E6%A1%A3%E7%9A%84%E7%9B%B8%E4%BC%BC%E5%BA%A6%E4%B8%89

详细讲述了如何使用NLTK进行英文分词、去除停用词、词干化、训练LSI、等等文本预处理的步骤。

在使用sumy demo时候出错:

C:\Python27\python.exe D:/Python/jieba/demo/sklearn/sumy_demo1.py

Traceback (most recent call last):

File "D:/Python/jieba/demo/sklearn/sumy_demo1.py", line 20, in

parser = HtmlParser.from_url(url, Tokenizer(LANGUAGE))

File "C:\Python27\lib\site-packages\sumy\nlp\tokenizers.py", line 33, in __init__

self._sentence_tokenizer = self._sentence_tokenizer(tokenizer_language)

File "C:\Python27\lib\site-packages\sumy\nlp\tokenizers.py", line 45, in _sentence_tokenizer

"NLTK tokenizers are missing. Download them by following command: "

LookupError: NLTK tokenizers are missing. Download them by following command: python -c "import nltk; nltk.download('punkt')"

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/454415.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

JavaScript知识概要

JavaScript 1.简介 JavaScript简介: JS是运行在浏览器端的一门脚本语言,一开始主要用来做浏览器验证,但现在功能已经不止于此。 所谓脚本语言就是指,代码不需要编译,直接运行,并且读入…

计算机文档xsl,XSL-FO 文档

XSL-FO 文档XSL-FO 文档XSL-FO 文档是带有输出信息的 XML 文件。XSL-FO 文档存储在以 .fo 或 .fob 为文件扩展名的文件中。您也可以把 XSL-FO 文档存储为以 .xml 为扩展名的文件,这样做的话可以使 XSL-FO 文档更易被 XML 编辑器存取。XSL-FO 文档结构XSL-FO 的文档结…

vue项目cordova打包的android应用

准备工作nodejs、cordova、AndroidStudio这些在上一篇文章中已经说过了,这里就不重复说明。以此文记录vue项目用cordova打包移动app的方法。 1.创建一个cordova项目,如创建一个名为testapp的工程:cordova create testapp 2.添加安卓平台 cord…

H.264视频开发---代码移植

基于DSP系统开发的视频编解码系统,国内几乎都是走的移植,优化的路线,并且移植的代码,都是开源的。毕竟花费大量的人力,物力去开发一套自己的代码,并不见得比一些成熟的开源代码效率更高,健壮性更…

Django REST framework 源码解析

先放图,放图说话,可能有点长 主流程 这个颜色 从setting导入默认数据流程是 这个颜色 主流程大概流程写一下:as_view 实际返回view,并把参数{"get":"list","post":"create"}传递给view…

-9 逆序输出一个整数的各位数字_leetcode两数相加(大整数相加)

题目来源于leetcode第二题两数相加。题目描述给出两个非空的链表用来表示两个非负的整数。其中,它们各自的位数是按照逆序的方式存储的,并且它们的每个节点只能存储一位数字。如果,我们将这两个数相加起来,则会返回一个新的链表来…

计算机如何添加管理员权限,电脑使用代码如何添加管理员权限

我们在使用电脑运行某些软件的时候,可能需要用到管理员权限才能运行,通常来说直接点击右键就会有管理员权限,但最近有用户向小编反馈,在需要管理员权限的软件上点击右键没有看到管理员取得所有权,那么究竟该如何才能获…

mysql选择数据库创建数据库

MySQL 选择数据库 在你连接到 MySQL 数据库后,可能有多个可以操作的数据库,所以你需要选择你要操作的数据库。 从命令提示窗口中选择MySQL数据库 在 mysql> 提示窗口中可以很简单的选择特定的数据库。你可以使用SQL命令来选择指定的数据库。 实例 以下…

英语面试技巧以及准备工作

如果你提前知道了电话面试的时间,则可以在面试时把简历、coverletter放在你旁边的桌子上,直接运用里面的句子回答问题。一些基本的问题,你可以事先准备好答案。通常,在电话英语面试的时候会提道:  please tell me som…

sql注入问题

${}拼接sql,会引起sql注入,sql注入例如: select * from user where name like ‘%’ or 11 or ‘%’; 这种情况下,论name为什么都可以执行 转载于:https://www.cnblogs.com/mengyinianhua/p/7649325.html

Python 面向对象之双下方法,内置函数

isinstance和issubclass isinstance(obj,cls) # 检查是否obj是否是类 cls 的对象 class Foo(object):passobj Foo()isinstance(obj, Foo) # ture issubclass(sub, super) # 检查sub类是否是 super 类的派生类 class Foo(object):passclass Bar(Foo):passissubclass…

teechart绘制实时曲线_快速学会CAD绘制传输线路图纸

一工具CAD工程设计软件二方法和步骤万事开头难,遇到不懂的知识刚开始都有畏难的情绪,只要有决心学习,诚心想学会一项技能,那学会学好它就只是时间问题了。我们常常面临时间紧、需要快速入门甚至熟练地解决工作中实际情况的问题&am…

彝文计算机,试论计算机彝文字符编码的转换.pdf

试论计算机彝文字符编码的转换.pdf第17卷 第1期 云南民族大学学报(自然科学版) V01.17 No.12008年1月 Journal of Yunnan Nationalities University(Natural Sciences Edition) Jan.2o08试论计算机彝文字符编码的转换李金发(红河学院人文学院…

ActiveMQ(07):ActiveMQ结合Spring开发--建议

1、Camel框架支持大量的企业集成模式,可以大大简化集成组件间的大量服务和复杂的消息流。而Spring框架更注重简单性,仅仅支持基本的最佳实践。 2、Spring消息发送的核心架构是JmsTemplate,隔离了像打开、关闭Session和Producer的繁琐操作&…

使用ajax获取用户所在地的天气

1.要获取用户归属地的天气&#xff0c;首先得获取用户所在的市区&#xff0c; 这里先获取用户的IP&#xff0c;通过IP获取IP的归属地&#xff0c;从而得到用户 地址。 获取客户端ip: js: <scripttype"text/javascript" src"http://pv.sohu.com/cityjson?ieu…

Python 之协程

之前我们学习了线程、进程的概念&#xff0c;了解了在操作系统中进程是资源分配的最小单位,线程是CPU调度的最小单位。按道理来说我们已经算是把cpu的利用率提高很多了。但是我们知道无论是创建多进程还是创建多线程来解决问题&#xff0c;都要消耗一定的时间来创建进程、创建线…

ip变换器苹果系统_加密锁能为高铁做什么?铁路电力变换器系统告诉您

代表国之重器的高铁&#xff0c;是怎样保护他们在软件上投资的专有技术不被仿冒、逆向工程和篡改呢&#xff1f;与一般的软件保护加密不同&#xff0c;高铁运行中的实时控制器对物理环境有着严苛的要求&#xff0c;如铁路电力变换器系统&#xff0c;须满足典型工业应用的扩展温…

华为服务器ibmc怎么装系统,华为服务器安装操作系统

《华为服务器安装操作系统》由会员分享&#xff0c;可在线阅读&#xff0c;更多相关《华为服务器安装操作系统(11页珍藏版)》请在人人文库网上搜索。1、华为服务器安装操作系统 1把网线接到服务器管理口上&#xff0c;2288服务器管理口在服务器背后中下 部位置&#xff0c;有Mg…

英语面试(自我介绍,电话面试..)

大凡找工作的人&#xff0c;都有对面试的担心&#xff0c;而英语面试最令人头痛。面试气氛总是紧张的&#xff0c;一紧张就容易出错&#xff0c;中文“台词”都会结巴&#xff0c;何况英语&#xff01; 可俗话说&#xff0c;养兵千日&#xff0c;用兵一时&#xff0c;学了那么多…

服务端渲染与 Universal React App

随着 Webpack 等前端构建工具的普及&#xff0c;客户端渲染因为其构建方便&#xff0c;部署简单等方面的优势&#xff0c;逐渐成为了现代网站的主流渲染模式。而在刚刚发布的 React v16.0 中&#xff0c;改进后更为优秀的服务端渲染性能作为六大更新点之一&#xff0c;被 React…