Python NLPIR(中科院汉语分词系统)的使用 十五分钟快速入门与完全掌握

前叙

博主写这篇文章使用了八十分钟,阅读需要十五分钟,读完之后你将会学会在Python中使用NLPIR2016.如果你花费更多的时间练习后半部分的例子,你将能够在一天内学会在Python中使用NLPIR2016的全部所需知识
如果你想要获取更详细的API翻译,你需要进一步学习ctypes,附赠一篇关于API翻译,虽然是java语言的,但是NLPIR的接口翻译都是一样的
http://blog.csdn.net/fontthrone/article/details/72882938
我决定上传一下有关NLP的博客中的源码:
http://blog.csdn.net/fontthrone/article/details/72885329

如何使用接口

将打包好的[组合包]下所有内容拖入你的项目,然后开始在你的py文件中通过引用nlpir中的方法使用NLPIR2016

#如果想要使用NLPIR需要的基本的配置
from nlpir import *
# 在引用nlpir之后就可以按照引用其他py文件的一般方法使用NLPIR2016
from ctypes import *
import sys
reload(sys)
sys.setdefaultencoding('utf-8')
# 在Python2.x中需要配置文件的默认编码这样可以避免很多编码问题
from os import path
d = path.dirname(__file__)
# 获取当前路径,在后续的许多代码中可能需要使用该路径
text_path = 'txt/lztest.txt' #设置要分析的文本路径
stopwords_path = 'stopwords\stopwords1893.txt' # 停用词词表
text = open(path.join(d, text_path)).read()
txt = seg(text)
seg_list =[]
for t in txt:seg_list.append(t[0].encode('utf-8'))# seg_list += ' '
# 使用NLPIR进行中文分词
print seg_list
# 直接输出 seg_list会出现乱码
for j in seg_list:print j
# 显示效果如下图

seg分词后的效果

用户自定义词库的两种方式

1. 修改NLPIR的词库

想要修改NLPIR的词库你可以阅读官方的文档,其方法为”汉语分词20140928\importuserdict\Readme.txt”
下面为其中内容:

采用附件的小工具,可以实现脱机导入用户词典;具体步骤如下:
1.与分词Data文件夹同级建立 bin目录,下面建立二级目录ICTCLAS2014;
2.将附件的内容解压缩后放在ICTCLAS2014下面;
3.编辑bin/ICTCLAS2014下面的userdic.txt,这里放置用户词典与标注;
4.执行bin/ICTCLAS2014的批处理文件。即可导入用户词典到Data目录下的field.pdat field.pos5.30万词条会划分更多的时间,可能需要2小时左右。

2.在代码中动态引用与删除用户自定义词库

#下面代码中loadFun的参数c_int,c_uint等为ctype类型,在下文中我会有部分介绍,其足以满足一般的使用,但是想要深入学习,你需要自己学习该部分
# nlpir的源代码
ImportUserDict = loadFun('NLPIR_ImportUserDict',c_uint, [c_char_p])
# 从txt文件中导入用户词典
AddUserWord = loadFun('NLPIR_AddUserWord', c_int, [c_char_p])
# 添加用户自定义词语
SaveTheUsrDic = loadFun('NLPIR_SaveTheUsrDic', c_int, None)
# 将用户词典保存到硬盘
DelUsrWord = loadFun('NLPIR_DelUsrWord',c_int, [c_char_p])
# 删除用户的自定义词语# 例子
AddUserWord('龙族')
AddUserWord('路明非')
AddUserWord('大和炮')
AddUserWord('竞技类')
DelUsrWord('竞技类')
# 注意在NLPIR的默认分词格式中会识别汉语名字,但是测试发现:即使在某个句子中,将一个名字,比如'路明非'分词成功了,但是在其他句子中并不一定能够正确分词,如果你想更好地使用分词功能,可以和下一个部分中的提取新词配合使用

提取新词与关键字

text_path = 'txt/lztest.txt' #设置要分析的文本路径
text = open(path.join(d, text_path)).read()
txt = seg(text)
kw_list =[]
seg_list =[]# 获得新词,第二个参数控制新词的个数,排名按照TF-IDF(term frequency–inverse document frequency排序
# 该功能可以和AddUserWord()方法配合使用,以更好地获取分词效果
strs1 = GetNewWords(text,c_int(10),[c_char_p, c_int, c_bool])
print strs1
# 获得新词(从txt文件中),第二个参数控制新词的个数,排名按照TF-IDF(term frequency–inverse document frequency排序
# strs10 = GetFileNewWords(text,c_int(10),[c_char_p, c_int, c_bool])
# print strs10
# WindowsError: exception: access violation reading 0x0000000000000000
# 获得关键词,第二个参数控制新词的个数,排名按照TF-IDF(term frequency–inverse document frequency排序
strs2= GetKeyWords(text,c_int(10),[c_char_p, c_int, c_bool])
print strs2

演示效果如下:
Python中使用NLPIR2016获取新词与提取关键字
其中第一部分(比如”富山雅史”)为词语,第二部分(n_new为新词)为词性,第三部分为权重(TF*IDF)

使用停用词的实例

# - * - coding: utf - 8 -*-
#
# 作者:田丰(FontTian)
# 创建时间:'2017/5/31'
# 邮箱:fonttian@163.com
# CSDN:http://blog.csdn.net/fontthronefrom os import path
from nlpir import *
from scipy.misc import imread
import matplotlib.pyplot as plt
from wordcloud import WordCloud, ImageColorGenerator
from ctypes import *
import sys
reload(sys)
sys.setdefaultencoding('utf-8')d = path.dirname(__file__)
# 添加用户自定义词语
AddUserWord('龙族')
AddUserWord('路明非')
AddUserWord('大和炮')
AddUserWord('竞技类')text_path = 'txt/lztest.txt' #设置要分析的文本路径
stopwords_path = 'stopwords\stopwords1893.txt' # 停用词词表
text = open(path.join(d, text_path)).read()
txt = seg(text)
seg_list =[]for t in txt:seg_list.append(t[0].encode('utf-8'))# seg_list += ' '
# 使用NLPIR进行中文分词# 去除停用词
def NLPIRclearText(text):mywordlist = []liststr = "/ ".join(seg_list)f_stop = open(stopwords_path)try:f_stop_text = f_stop.read()f_stop_text = unicode(f_stop_text, 'utf-8')finally:f_stop.close()f_stop_seg_list = f_stop_text.split('\n')for myword in liststr.split('/'):if not (myword.strip() in f_stop_seg_list) and len(myword.strip()) > 1:mywordlist.append(myword)return ''.join(mywordlist)# 去除完停用词的文本
s = NLPIRclearText(seg_list)
print s

结果如下:
Python使用NLPIR2016进行中文分词

使用中的可能会遇见的一些问题

  1. ctype的问题,想要更好地在Python中使用NLPIR2016,你需要了解该部分
  2. 控制台输出utf-8编码格式中文显示乱码,这个在windows中比较常见,原因是控制台的默认中文编码为gbk或者或者其他格式
  3. 进一步掌握文章中未介绍的部分方法,你可以直接浏览nlpir.py文件或者参考这篇文章:http://blog.csdn.net/fontthrone/article/details/72882938
  4. 在Python3中使用NLPIR2016,这个你只需要参考官网的文档即可,这个我就不再做过介绍了

转载于:https://www.cnblogs.com/fonttian/p/7294825.html

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/400797.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

微信朋友圈也可以发语音你们造吗?

在微信朋友圈发照片太矫情,小视频又耗流量,只发文字又太单调,何不发段语音来呼朋唤友呢?你是说朋友圈发语音?这是真的吗?sure,开发者已经利用微信JS-SDK接口实现了,扫描下方的二维码…

MSP430F5529 DriverLib 库函数学习笔记(十四)看门狗定时器 (WDT)

目录硬知识看门狗定时计数器 (WDTCNT)看门狗模式定时计数模式看门狗定时器中断时钟故障保护功能低功耗模式下的看门狗操作看门狗定时器控制寄存器WDT_A API (机翻)参数上机实战定时计数模式配置中断服务函数整体代码实验结果看门狗模式配置整体代码平台&…

初学 Unsupervised feature learning and deep learning--Sparse autoencoder

今天做了一下 Stanford CS294A 的一个 programming assignment: sparse autoencoder 因为之前做过 Andrew Ng 的 ml online class 的 neural network 那节的作业,所以这个实现起来就很 easy 了。直接贴代码(all vectorized):1 [d …

【Nginx】Windows平台下配置Nginx服务实现负载均衡

🚀 优质资源分享 🚀 学习路线指引(点击解锁)知识定位人群定位🧡 Python实战微信订餐小程序 🧡进阶级本课程是python flask微信小程序的完美结合,从项目搭建到腾讯云部署上线,打造一…

PLC基础入门

PLC编程入门基础技术知识学习 2016-06-27 xjp7879 摘自 电工技术知...第一章 可编程控制器简介 可编程序控制器,英文称Programmable Controller,简称PC。但由于PC容易和个人计算机(Personal Computer)混淆,故人们仍习…

Xcode 的正确打开方式——Debugging

2019独角兽企业重金招聘Python工程师标准>>> 程序员日常开发中有大量时间都会花费在 debug 上,从事 iOS 开发不可避免地需要使用 Xcode。这篇博客就主要介绍了 Xcode 中几种能够大幅提升代码调试效率的方式。 “If debugging is the process of removing…

VS Code 调试 PHP有关配置

一、安装VS CODE 、 WampServer 二、用VS Code 打开php项目后,提示 "Cannot validate since no PHP executable is set. Use the setting php.validate.executablePath to configure the PHP executable." 解决方法如下: 在“文件”-“首选项”…

MSP430F5529 DriverLib 库函数学习笔记(十六)比较器B Comp_B

目录硬知识比较器B介绍比较器 B 的特点比较器 B 的结构模拟输入部分比较部分基准电压部分低通滤波部分比较器和普通运放的区别比较器B测量电阻原理利用比较器B实现电容触摸按键原理比较器B控制寄存器COMP_B API (机翻)介绍处理初始化和输出的函数参数处理中断的函数参数处理COM…

深入解析kubernetes controller-runtime

🚀 优质资源分享 🚀 学习路线指引(点击解锁)知识定位人群定位🧡 Python实战微信订餐小程序 🧡进阶级本课程是python flask微信小程序的完美结合,从项目搭建到腾讯云部署上线,打造一…

数据结构练习 00-自测3. 数组元素循环右移问题 (20)

一个数组A中存有N(N>0)个整数,在不允许使用另外数组的前提下,将每个整数循环向右移M(M>0)个位置,即将A中的数据由(A0A1……AN-1)变换为(AN-M …… AN-1…

MSP432P401R TI Drivers 库函数学习笔记(一)导入工程模板

目录从Resource Explorer中导入从SDK导入测试平台:Code Composer Studio 10.4.0 MSP432P401R SimpleLink™ 微控制器 LaunchPad™ 开发套件 (MSP-EXP432P401R) 从Resource Explorer中导入 本文所用编程平台为Code Composer Studio 10.4.0 启动软件后在Help中打开…

ThreadLocal的简单理解

🚀 优质资源分享 🚀 学习路线指引(点击解锁)知识定位人群定位🧡 Python实战微信订餐小程序 🧡进阶级本课程是python flask微信小程序的完美结合,从项目搭建到腾讯云部署上线,打造一…

JMS 在 SpringBoot 中的使用

当前环境 Mac OS 10.11.xdocker 1.12.1JDK 1.8SpringBoot 1.5前言 基于之前一篇“一个故事告诉你什么是消息队列”,了解了消息队列的使用场景以及相关的特性。本文主要讲述消息服务在 JAVA 中的使用。 市面上的有关消息队列的技术选型非常多,如果我们的代…

MSP432P401R TI Drivers 库函数学习笔记(二)认识TI-RTOS (TI-POSIX)

目录简介TI-RTOSFreeRTOSPOSIX运行时对象查看器 (Runtime Object Viewer)TI-POSIX 介绍在源代码中使用 POSIXTI-POSIX支持的函数摘要线程函数调用的前后关系线程管理线程属性线程同步障碍属性条件变量条件变量属性互斥锁互斥属性读写锁定读写锁属性辅助函数调用的前后关系时钟消…

arcgis创建postgre企业级数据库

🚀 优质资源分享 🚀 学习路线指引(点击解锁)知识定位人群定位🧡 Python实战微信订餐小程序 🧡进阶级本课程是python flask微信小程序的完美结合,从项目搭建到腾讯云部署上线,打造一…

[floyd+路径输出]HDU1385 Minimum Transport Cost

题目链接 题目翻译: 有N个城市,然后直接给出这些城市之间的邻接矩阵,矩阵中-1代表那两个城市无道路相连,其他值代表路径长度。 如果一辆汽车经过某个城市,必须要交一定的钱(可能是过路费)。 现在要从a城到b城,花费为路…

MSP432P401R TI Drivers 库函数学习笔记(三)认识任务的创建及图形化配置

目录任务的简单创建图形化配置上手简简单单点个灯配置引脚建立任务实验结果整体代码main.cmyTask.cmyTask.h平台:Code Composer Studio 10.4.0 MSP432P401R SimpleLink™ 微控制器 LaunchPad™ 开发套件 (MSP-EXP432P401R) 任务的简单创建 根据上篇机翻的函数作用…

JavaScript实现自适应宽度的瀑布流

摘要: 主要介绍瀑布流的一种实现方法:绝对定位(css)javascriptajaxjson。简单一点如果不做滚动加载的话就是绝对定位(css)javascript了,ajax和json是滚动加载更多内容的时候用到的。 这样的布局并不陌生,从2011年Pinterest创立以来&#xff0…

.net web 开发平台- 表单设计器 一(web版)

如今为了适应需求的不断变化,动态表单设计器应运而生。它主要是为了满足界面的不断变化和提高开发速度。比如:一些页面客户可能也无法确定页面的终于布局,控件的位置,在哪种情况下显示或不显示等可能须要随时改动。为了应对这些需…

.NET程序配置文件操作(ini,cfg,config)

🚀 优质资源分享 🚀 学习路线指引(点击解锁)知识定位人群定位🧡 Python实战微信订餐小程序 🧡进阶级本课程是python flask微信小程序的完美结合,从项目搭建到腾讯云部署上线,打造一…