python停用词表_多版本中文停用词词表 + 多版本英文停用词词表 + python词表合并程序...

文章简介与更新记录

如果你只想获取中文停用词此表,请直接到文章结尾下载项目文件,其中包括三个中文停用词词表,一个英文停用词词表和一个合并词表的.py文件2017/07/04 创建文章,上传文件

2017/07/04 更新了合并代码,添加了新的中文停用词表(哈工大扩展版本)和一个新的停用词表,现在最全的中文停用词表为1927,添加了英文和中英文停用词表英文停用词词表为1199

停用词

在进行汉语自然语言处理时候,分词是必不可少的环节,但是在实际的自然语言中,有很多的非实意词语或者其他并没有实际作用的词语,这些词语我们必须在分词环节后进行过滤—这个环节也就是过滤停用词.不过想要获得好的分词效果,必须首先进行比较好的分词处理.这一点也是十分重要的.

python合并中文停用词词表的代码

# - * - coding: utf - 8 -*-

#

# 作者:田丰(FontTian)

# 创建时间:'2017/7/4'

# 邮箱:fonttian@Gmaill.com

# CSDN:http://blog.csdn.net/fontthrone

import sys

reload(sys)

sys.setdefaultencoding('utf-8')

# 获取停用词的List

def GetListOfStopWords(filepath):

f_stop = open(filepath)

try:

f_stop_text = f_stop.read()

f_stop_text = unicode(f_stop_text, 'utf-8')

finally:

f_stop.close()

f_stop_seg_list = f_stop_text.split('\n')

return f_stop_seg_list

# 保存List

def SaveFile(list, filename):

f_stop = open(filename, 'w')

for item in range(len(list)):

if item != len(list):

f_stop.writelines((list[item].encode('utf-8')) + '\n')

else:

f_stop.writelines(list[item].encode('utf-8'))

f_stop.close()

# 求List并集

def GetListUnion(listName):

ListUnion = ['!']

for item in listName:

# print item

ListUnion.extend(GetListOfStopWords(item))

return list(set(ListUnion))

def GetStopWords(listOfFileName, FileName='CNstopwords.txt', keynumber=1):

stopwords_pathCN = 'CNstopwords.txt' # 默认中文总表 1

stopwords_pathEN = 'ENstopwords.txt' # 默认英文总表 2

stopwords_pathCNEN = 'CNENstopwords.txt' # 默认中英文混合总表 4

if keynumber == 1:

listOfFileName.append(stopwords_pathCN)

elif keynumber == 2:

listOfFileName.append(stopwords_pathEN)

elif keynumber == 3:

listOfFileName.append(stopwords_pathCN)

listOfFileName.append(stopwords_pathEN)

elif keynumber == 5:

listOfFileName.append(stopwords_pathCN)

listOfFileName.append(stopwords_pathCNEN)

elif keynumber == 6:

listOfFileName.append(stopwords_pathEN)

listOfFileName.append(stopwords_pathCNEN)

elif keynumber == 7:

listOfFileName.append(stopwords_pathCN)

listOfFileName.append(stopwords_pathEN)

listOfFileName.append(stopwords_pathCNEN)

else:

listOfFileName.append(stopwords_pathCN)

print 'The keynumber is wrong,chage keynumber to 1 '

listOfFileName.append(stopwords_pathCNEN)

ListUnion = GetListUnion(listOfFileName)

SaveFile(ListUnion, FileName)

'''

stopwords_pathCN = 'CNstopwords.txt' # 默认中文总表 1

stopwords_pathEN = 'CNstopwords.txt' # 默认英文总表 2

stopwords_pathCNEN = 'CNstopwords.txt' # 默认中英文混合总表 4

'''

listOfFileName = []

# 需要添加的 中文 停用词词表

stopwords_path1 = 'stopwords1893.txt'

stopwords_path2 = 'stopwords1229.txt'

stopwords_path3 = 'stopwordshagongdakuozhan.txt'

stopwords_path4 = 'stop_words_zh.txt'

# 需要添加的 英文 停用词词表

stopwords_path5 = 'stop_words_eng.txt'

stopwords_path6 = 'ENstopwords891.txt'

# 需要添加的 中文 停用词词表路径

# listOfFileName.append(stopwords_path1)

# listOfFileName.append(stopwords_path2)

# listOfFileName.append(stopwords_path3)

# listOfFileName.append(stopwords_path4)

# 需要添加的 英文 停用词词表路径

listOfFileName.append(stopwords_path5)

listOfFileName.append(stopwords_path6)

GetStopWords(listOfFileName, FileName='ENstopwords.txt', keynumber=2)

百度云下载所有文件

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/533960.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

mysql collect_set_hive列转行 (collect_set())

一、问题hive如何将a b 1a b 2a b 3c d 4c d 5c d 6变为:a b 1,2,3c d 4,5,6二、数据test.txta b 1a b 2a b 3c d …

python编写递归函数和非递归函数、输出斐波那契数列_分别用非递归和递归的方法编写函数求斐波那契数列第n项。斐波那契数列1,1,2,3,5,8,13,…...

展开全部/**已知Fibonacci数列&#xff1a;1,1,2,3,5,8,……&#xff0c;F(1)1&#xff0c;F(2)1&#xff0c;F(n)F(n-1)F(n-2)*/#include #include typedef long long int int64;//方法1&#xff0c;递归法int64 Fibonacci(int n){int64 sum;if(n<0){printf("参数值e6…

python3.6安装ipython_centos6.5下安装python3.6、pip、ipython

一.先更换系统源为了下载顺畅一般都会更改为国内源。1 cd /etc/yum.repos.d/2 wget http://mirrors.163.com/.help/CentOS6-Base-163.repo #下载网易源3 mv CentOS-Base.repo CentOS-Base.repo.ori #备份源4 mv CentOS6-Base-163.repo CentOS-Base.repo #把网易源更改为默认源二…

java 多线程的同步问题_java多线程解决同步问题的几种方式,原理和代码

wait()/notify()方法await()/signal()方法BlockingQueue阻塞队列方法PipedInputStream/PipedOutputStream阻塞队列的一个简单实现&#xff1a;public class BlockingQueue {private List queue new LinkedList();private int limit 10;public BlockingQueue(int limit){this…

python期末大作业_大一期末考试很重要,考得好不仅有机会有钱拿,还有机会换专业...

现阶段很多高校放寒假的时间已经公布&#xff0c;这也就意味着&#xff0c;大学期末考试即将到来。对于大一新生来说&#xff0c;大学的期末考试是比较新鲜的&#xff0c;因为大家都没有经历过。经历过大学考试的学生&#xff0c;都知道大学的大概学习模式&#xff0c;一般情况…

java http 302重定向_Java 纯HTTP请求 禁止302自动重定向

Java 纯HTTP Get请求获取响应内容&#xff0c;如果发生302重定向&#xff0c;继而模拟请求域获取重定向后的响应内容。关键点&#xff1a;设置conn.setInstanceFollowRedirects为false即可示例代码public static void main(String[] args) {try {StringBuffer buffer new Stri…

python 且_Pyface库:一个基于pyqt、pyside、wx且简化的python的GUI

1 说明&#xff1a;1.1 Pyface库由大名鼎鼎的enthought出品。1.2 介绍&#xff1a;1.2.1 英文&#xff1a;traits-capable windowing framework.The pyface project contains a toolkit-independent GUI abstraction layer, which is used to support the "visualization&…

java方法的参数类型_Java 基础 14 方法的重载 与 方法参数类型详解

1.1 方法重载的概述和特点方法重载概述在同一个类中&#xff0c;允许存在一个以上的同名方法&#xff0c;只要它们的参数个数或者参数类型不同即可。方法重载特点与返回值类型无关&#xff0c;只看方法名和参数列表在调用时&#xff0c;虚拟机通过参数列表的不同来区分同名方法…

crv仪表上的i是什么指示灯_汽车打不着火是怎么回事,仪表盘汽车发动机故障灯亮是什么情况故障指示灯图解大全集...

如果打不着火&#xff0c;那有可能是起动机坏了&#xff0c;有可能是电池没电了&#xff0c;有可能是电路出现了问题&#xff0c;还有可能是点火系统出现了问题。汽车发动机的点火系统主要部件是火花塞和点火线圈&#xff0c;火花塞是一个需要定期更换的易损件。如果火花塞长时…

python极简教程_Python 极简教程(六)运算符

运算符&#xff0c;我们日常生活中使用的加减乘除&#xff0c;都是运算符的一种。当然这种一般我们称为算术运算符&#xff0c;用于处理数字运算的。但是在计算机语言中&#xff0c;还有很多的运算符。用于处理不用的情况。主要有以下几类&#xff1a;算术运算符比较运算符逻辑…

python函数可变长参数_day14 Python函数之可变长参数

函数参数1.形参变量只有在被调用时才分配内存单元&#xff0c;在调用结束时&#xff0c;即刻释放所分配的内存单元。因此&#xff0c;形参只在函数内部有效。函数调用结束返回主调用函数后则不能再使用该形参变量2.实参可以是常量、变量、表达式、函数等&#xff0c;无论实参是…

ubuntu 安装java jdk_「ubuntu安装jdk」Ubuntu安装jdk8的两种方式 - seo实验室

ubuntu安装jdk安装方式&#xff1a;1)&#xff1a;通过ppa(源) 方式安装.2)&#xff1a;通过官网安装包安装.JDK官网下载地址一&#xff1a;使用ppa(源)方式安装&#xff1a;1)&#xff1a;添加ppa源sudo add-apt-repository ppa:webupd8team/javasudo apt-get update2)&#x…

restful风格_什么是RESTful风格的API设计?

随着移动互联网的兴起&#xff0c;RESTful风格的API设计也随之流行起来&#xff0c;但我们说了那么多RESTful设计&#xff0c;它到底是什么&#xff1f;本篇文章带大家来了解一下它的真实面目。RESTful概念首先&#xff0c;我们需要明确的是RESTful&#xff0c;它是一个理念&am…

java jdbc 增删改封装_JAVA JDBC 常规增删改查简单封装

JAVA JDBC 常规增删改查简单封装,可满足大多基本要求作用&#xff1a;1&#xff0c; 查询列表是直接返回List对象&#xff0c;不必再遍历&#xff1b;2&#xff0c; 单条查询直接返回对象&#xff1b;3&#xff0c; 执行sql仅需一个方法搞定&#xff1b;package com.Main.Tools…

python wget安装_Macbook系统环境安装wget的2个方法 - 传统包及Homebrew安装

考虑到自身项目的拓展需要&#xff0c;朋友建议学习Python爬虫这样对于做大数据采集有较大的帮助&#xff0c;老蒋虽然每天也都接触一些脚本和程序的修改&#xff0c;但是并没有专业和系统的学习某一项编程。所以还是准备陆续的学习Python语言&#xff0c;无论有没有基础&#…

java 程序找错_java代码找错

展开全部你试一下这个行不行&#xff0c;输入的时候是数字e69da5e6ba903231313335323631343130323136353331333335313138,数字,数字;数字,数字。。。。。的格式&#xff0c;你把我注释的那个输入行(String stInput input.next();)的注释去掉&#xff0c;把我字符串写死的那行(…

zookeeper 分布式锁_关于redis分布式锁,zookeeper分布式锁原理的一些学习与思考

编辑&#xff1a;业余草来源&#xff1a;https://www.xttblog.com/?p4946首先分布式锁和我们平常讲到的锁原理基本一样&#xff0c;目的就是确保&#xff0c;在多个线程并发时&#xff0c;只有一个线程在同一刻操作这个业务或者说方法、变量。在一个进程中&#xff0c;也就是一…

Java线程怎么发送消息_Java客户端Socket如何能在阻塞线程下收到服务端发送来的消息?...

最近在写Socket客户端的时候遇到点问题客户端在创建时创建了2个线程一个监听键盘输入事件&#xff0c;使用的是buffered&#xff0c;当检测到输入完成时写入流发送给服务端。String content "";while (!(content bufferedReader.readLine()).equals("exit&quo…

python函数参数传递机制_Python 学习笔记(一) 理解Python的函数传参机制

对于刚接触Python不久的新手&#xff0c;Python的函数传参机制往往会让人迷惑。学过C的同学都知道函数参数可以传值或者传地址。比如下面这段代码点击(此处)折叠或打开void func(int input) {input 100;}int a 0;func(a);printf("%d", a);结果应该是打印0&#xff…

网页无法调用java9_JAVA 9 (内部类,异常,包)

内部类&#xff1a;将一个类定义在另一个类里面&#xff0c;称里面那个类为内部类。举例&#xff1a;class Zx{public static void main(String []arr){Outer o new Outer();o.method();}}class Outer{class Inner //内部类&#xff0c;可以定义多个内部类{void function(){S…