pythonjieba分词_$好玩的分词——python jieba分词模块的基本用法

jieba(结巴)是一个强大的分词库,完美支持中文分词,本文对其基本用法做一个简要总结。

安装jieba

pip install jieba

简单用法

结巴分词分为三种模式:精确模式(默认)、全模式和搜索引擎模式,下面对这三种模式分别举例介绍:

精确模式

import jieba

s = u'我想和女朋友一起去北京故宫博物院参观和闲逛。'

cut = jieba.cut(s)

print '【Output】'

print cut

print ','.join(cut)

【Output】

我,想,和,女朋友,一起,去,北京故宫博物院,参观,和,闲逛,。

可见分词结果返回的是一个生成器(这对大数据量数据的分词尤为重要)。

全模式

print '【Output】'

print ','.join(jieba.cut(s,cut_all = True))

【Output】

我,想,和,女朋友,朋友,一起,去,北京,北京故宫,北京故宫博物院,故宫,故宫博物院,博物,博物院,参观,和,闲逛,,

可见全模式就是把文本分成尽可能多的词。

搜索引擎模式

print '【Output】'

print ','.join(jieba.cut_for_search(s))

【Output】

我,想,和,朋友,女朋友,一起,去,北京,故宫,博物,博物院,北京故宫博物院,参观,和,闲逛,。

获取词性

每个词都有其词性,比如名词、动词、代词等,结巴分词的结果也可以带上每个词的词性,要用到jieba.posseg,举例如下:

import jieba.posseg as psg

print '【Output】'

print [(x.word,x.flag) for x in psg.cut(s)]

# 输出:

'''

[(u'我', u'r'), (u'想', u'v'), (u'和', u'c'), (u'女朋友', u'n'), (u'一起', u'm'),

(u'去', u'v'), (u'北京故宫博物院', u'ns'), (u'参观', u'n'), (u'和', u'c'), (u'闲逛', u'v'), (u'。', u'x')]

'''

可以看到成功获取到每个词的词性,这对于我们对分词结果做进一步处理很有帮助,比如只想获取分词结果列表中的名词,那么就可以这样过滤:

print [(x.word,x.flag) for x in psg.cut(s) if x.flag.startswith('n')]

# 输出:

'''

[(u'女朋友', u'n'), (u'北京故宫博物院', u'ns'), (u'参观', u'n')]

'''

至于词性的每个字母分别表示什么词性,jieba分词的结果可能有哪些词性,就要去查阅词性对照表了,本文结尾附了一份从网上搜到的词性对照表,想了解更详细的词性分类信息,可以到网上搜索"结巴分词词性对照"。

并行分词

在文本数据量非常大的时候,为了提高分词效率,开启并行分词就很有必要了。jieba支持并行分词,基于python自带的multiprocessing模块,但要注意的是在Windows环境下不支持。

用法:

# 开启并行分词模式,参数为并发执行的进程数

jieba.enable_parallel(5)

# 关闭并行分词模式

jieba.disable_parallel()

举例:开启并行分词模式对三体全集文本进行分词

santi_text = open('./santi.txt').read()

print len(santi_text)

2681968

可以看到三体全集的数据量还是非常大的,有260多万字节的长度。

jieba.enable_parallel(100)

santi_words = [x for x in jieba.cut(santi_text) if len(x) >= 2]

jieba.disable_parallel()

获取出现频率Top n的词

还是以上面的三体全集文本为例,假如想要获取分词结果中出现频率前20的词列表,可以这样获取:

from collections import Counter

c = Counter(santi_words).most_common(20)

print c

# 输出:

'''

[(u'\r\n', 21805), (u'一个', 3057), (u'没有', 2128), (u'他们', 1690), (u'我们', 1550),

(u'这个', 1357), (u'自己', 1347), (u'程心', 1320), (u'现在', 1273), (u'已经', 1259),

(u'世界', 1243), (u'罗辑', 1189), (u'可能', 1177), (u'什么', 1176), (u'看到', 1114),

(u'知道', 1094), (u'地球', 951), (u'人类', 935), (u'太空', 930), (u'三体', 883)]

'''

可以看到结果中'\r\n'居然是出现频率最高的词,还有'一个'、'没有'、'这个'等这种我们并不想要的无实际意义的词,那么就可以根据前面说的词性来进行过滤,这个以后细讲。

使用用户字典提高分词准确性

不使用用户字典的分词结果:

txt = u'欧阳建国是创新办主任也是欢聚时代公司云计算方面的专家'

print ','.join(jieba.cut(txt))

欧阳,建国,是,创新,办,主任,也,是,欢聚,时代,公司,云,计算,方面,的,专家

使用用户字典的分词结果:

jieba.load_userdict('user_dict.txt')

print ','.join(jieba.cut(txt))

欧阳建国,是,创新办,主任,也,是,欢聚时代,公司,云计算,方面,的,专家

可以看出使用用户字典后分词准确性大大提高。

注:其中user_dict.txt的内容如下:

欧阳建国 5

创新办 5 i

欢聚时代 5

云计算 5

用户字典每行一个词,格式为:

词语 词频 词性

其中词频是一个数字,词性为自定义的词性,要注意的是词频数字和空格都要是半角的。

附:结巴分词词性对照表(按词性英文首字母排序)

形容词(1个一类,4个二类)

a 形容词

ad 副形词

an 名形词

ag 形容词性语素

al 形容词性惯用语

区别词(1个一类,2个二类)

b 区别词

bl 区别词性惯用语

连词(1个一类,1个二类)

c 连词

cc 并列连词

副词(1个一类)

d 副词

叹词(1个一类)

e 叹词

方位词(1个一类)

f 方位词

前缀(1个一类)

h 前缀

后缀(1个一类)

k 后缀

数词(1个一类,1个二类)

m 数词

mq 数量词

名词 (1个一类,7个二类,5个三类)

名词分为以下子类:

n 名词

nr 人名

nr1 汉语姓氏

nr2 汉语名字

nrj 日语人名

nrf 音译人名

ns 地名

nsf 音译地名

nt 机构团体名

nz 其它专名

nl 名词性惯用语

ng 名词性语素

拟声词(1个一类)

o 拟声词

介词(1个一类,2个二类)

p 介词

pba 介词“把”

pbei 介词“被”

量词(1个一类,2个二类)

q 量词

qv 动量词

qt 时量词

代词(1个一类,4个二类,6个三类)

r 代词

rr 人称代词

rz 指示代词

rzt 时间指示代词

rzs 处所指示代词

rzv 谓词性指示代词

ry 疑问代词

ryt 时间疑问代词

rys 处所疑问代词

ryv 谓词性疑问代词

rg 代词性语素

处所词(1个一类)

s 处所词

时间词(1个一类,1个二类)

t 时间词

tg 时间词性语素

助词(1个一类,15个二类)

u 助词

uzhe 着

ule 了 喽

uguo 过

ude1 的 底

ude2 地

ude3 得

usuo 所

udeng 等 等等 云云

uyy 一样 一般 似的 般

udh 的话

uls 来讲 来说 而言 说来

uzhi 之

ulian 连 (“连小学生都会”)

动词(1个一类,9个二类)

v 动词

vd 副动词

vn 名动词

vshi 动词“是”

vyou 动词“有”

vf 趋向动词

vx 形式动词

vi 不及物动词(内动词)

vl 动词性惯用语

vg 动词性语素

标点符号(1个一类,16个二类)

w 标点符号

wkz 左括号,全角:( 〔 [ { 《 【 〖 〈 半角:( [ { <

wky 右括号,全角:) 〕 ] } 》 】 〗 〉 半角: ) ] { >

wyz 左引号,全角:“ ‘ 『

wyy 右引号,全角:” ’ 』

wj 句号,全角:。

ww 问号,全角:? 半角:?

wt 叹号,全角:! 半角:!

wd 逗号,全角:, 半角:,

wf 分号,全角:; 半角: ;

wn 顿号,全角:、

wm 冒号,全角:: 半角: :

ws 省略号,全角:…… …

wp 破折号,全角:—— -- ——- 半角:--- ----

wb 百分号千分号,全角:% ‰ 半角:%

wh 单位符号,全角:¥ $ £ ° ℃ 半角:$

字符串(1个一类,2个二类)

x 字符串

xx 非语素字

xu 网址URL

语气词(1个一类)

y 语气词(delete yg)

状态词(1个一类)

z 状态词

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/500990.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

局部变量和成员变量的区别

1.定义的位置不一样【重点】 局部变量&#xff1a;在方法的内部成员变量&#xff1a;在方法的外部&#xff0c;直接写在类当中 2.作用范围不一样【重点】 局部变量&#xff1a;只有方法当中才可以使用&#xff0c;出了方法就不能再用了成员变量&#xff1a;整个类都可以通用 …

pytorch 训练过程acc_Pytorch之Softmax多分类任务

在上一篇文章中&#xff0c;笔者介绍了什么是Softmax回归及其原理。因此在接下来的这篇文章中&#xff0c;我们就来开始动手实现一下Softmax回归&#xff0c;并且最后要完成利用Softmax模型对Fashion MINIST进行分类的任务。在开始实现Softmax之前&#xff0c;我们先来了解一下…

进程调度实验_Linux应用编程之进程的PID与PPID

关注、星标公众号&#xff0c;直达精彩内容ID&#xff1a;嵌入式情报局作者&#xff1a;情报小哥1进程PID首先介绍PID的相关知识&#xff0c;为后面介绍fork函数进行铺垫。01PID与PPID PID不是控制理论的PID算法&#xff0c;而是Prcess ID的简写。进程PID是当操作系统运行进程时…

操作Windows文件夹时,弹出文件夹正在使用,操作无法完成【解决】

在windows系统上&#xff0c;有时候在删除系统文件或文件夹时出现弹框&#xff0c;提示操作无法完成。这种情况的出现是因为你要删除的文件或文件夹被打开&#xff0c;或者被系统占用。遇到这种情况要怎么处理呢&#xff0c;本文介绍下具体的操作方法来帮助你解决这个问题。 方…

邀请合作如何表达_适时表达想法 才有利于彼此的合作

丹尼跟珍妮合作主持一个podcast节目&#xff0c;两人对这个节目兴致勃勃&#xff0c;并花很多时间投入&#xff0c;珍妮想邀请自己身边朋友一起参加&#xff0c;认为特别来宾可以增加节目的丰富度&#xff1b;丹尼却觉得现在节目才刚开始起步&#xff0c;要建立好两人的节目定位…

python泰坦尼克号数据预测_使用python预测泰坦尼克号生还

简介Titanic是Kaggle竞赛的一道入门题&#xff0c;参赛者需要根据旅客的阶级、性别、年龄、船舱种类等信息预测其是否能在海难中生还&#xff0c;详细信息可以参看https://www.kaggle.com/&#xff0c;本文的分析代码也取自 kaggle 中该竞赛的 kernal。数据介绍给出的数据格式如…

idea代码可以编译但是爆红_推荐一款 IDEA 生成代码神器,写代码再也不用加班了...

作者&#xff1a;HeloWxl链接&#xff1a;https://www.jianshu.com/p/e4192d7c6844Easycode是idea的一个插件&#xff0c;可以直接对数据的表生成entity,controller,service,dao,mapper,无需任何编码&#xff0c;简单而强大。1、安装(EasyCode)我这里的话是已经那装好了。建议大…

html跑马灯_用Excel居然能做“跑马灯”,而且还这么简单!

我的目标&#xff1a;让中国的大学生走出校门的那一刻就已经具备这些office技能&#xff0c;让职场人士能高效使用office为其服务。支持我&#xff0c;也为自己加油&#xff01;你没看错&#xff0c;上面这个就是用Excel做出来的&#xff0c;不过要用到窗体和控件。步骤如下&am…

c语言双链表排序交换节点_图解:单链表翻转的三种方式!

当我们在聊到链表反转的时候&#xff0c;一定说的都是单链表&#xff0c;双链表本身就具有前驱指针 Prev 和后续指针 next&#xff0c;无需进行翻转。单链表反转&#xff0c;反转后的效果如下&#xff1a;看起来很简单&#xff0c;只需要将单链表所有结点的 next 指向&#xff…

wsdl文档中的soap:address的生成规则_BAT大牛都在使用的数据库文档生成插件,不来看一下?...

一、概述在企业级开发中、我们经常会有编写数据库表结构文档的时间付出&#xff0c;从业以来&#xff0c;待过几家企业&#xff0c;关于数据库表结构文档状态&#xff1a;要么没有、要么有、但都是手写、后期运维开发&#xff0c;需要手动进行维护到文档中&#xff0c;很是繁琐…

修订模式怎么彻底关闭_电脑玩游戏卡顿怎么办?

电脑玩游戏卡怎么办&#xff1f;在玩游戏时电脑卡真的是会气死人的&#xff0c;特别是在打团的时候卡了&#xff0c;想砸电脑有木有&#xff1f;那么电脑玩游戏卡怎么办呢&#xff1f;给大家介绍几个方法&#xff0c;可以尝试改善卡顿。软件方面&#xff1a;1、 开启电源性能模…

datepicker不能选择是为什么_为什么客厅不好看?休闲椅选错了

为什么客厅不好看&#xff1f;休闲椅选错了很多装修完毕的小伙伴们经常有这样一个疑问: 为什么我家的客厅看上去这么凌乱&#xff0c;一点都没有想象中井然有致&#xff1f;这其中的潜在原因有很多&#xff0c;比如沙发墙的装饰设计有误&#xff0c;比如各类家具的款式搭配不对…

如何打开屏幕坏的手机_每天打开手机屏幕20次?打开10次以上的朋友进~

现代社会最很普遍的现象就是不管有没有事&#xff0c;不断地打开手机屏幕看时间或者刷各种信息和段子。 一块小小的屏幕却有着巨大的魅力。明明没有任何事情要干&#xff0c;却还是忍不住诱惑(cant resist temptation [tɛmpˈteʃən])想要打开屏幕&#xff0c;仿佛潘多拉的盒…

mvc 两个控制器session 丢失_用纯 JavaScript 撸一个 MVC 程序

前言我想用 model-view-controller 架构模式在纯 JavaScript 中写一个简单的程序&#xff0c;于是我这样做了。希望它可以帮你理解 MVC&#xff0c;因为当你刚开始接触它时&#xff0c;它是一个难以理解的概念。我做了这个todo应用程序&#xff0c;这是一个简单小巧的浏览器应用…

redis线程阻塞原因排插_每次面试都要被问:为什么采用单线程的Redis也会如此之快?...

众所周知&#xff0c;Redis在内存库数据库领域非常地火热&#xff0c;它极高的性能和丰富的数据结构为我们的开发提供了极大的便利。但我们也听说了&#xff0c;Redis是单线程的&#xff0c;为什么采用单线程的Redis也会如此之快呢&#xff1f;这篇文章我们来分析一下其中的缘由…

ssm后台数据是为什么是空值_网易后台开发实习生面试总结

回想到网上流传多年的问题&#xff1a;学历重要&#xff1f;还是能力更重要&#xff1f;上周投了简历&#xff0c;网易HR共来了3个电话(头天晚上两个电话我在做实验没接到&#xff0c;最后第二天中午又给我打了电话)&#xff0c;当她来第三个电话的时候&#xff0c;上面的问题在…

iptable 详解_最全的iptables防火墙详解.pdf

最全的iptables防火墙详解iptables /iptables /iippttaabblleess官方网站&#xff1a;hhttttpp::nneettffiilltteerr..oorrgg//• 数据包经过防火墙的路径• 禁止端口• 强制访问某站点• 发布内部网络服务器• 智能DNS• 端口映射• 通过NAT上网• IP 规则的保存与恢复• ipta…

python中函数type可以测试对象类型_python类型检测最终指南--Typing模块的使用

正文共&#xff1a;30429 字预计阅读时间&#xff1a;76分钟原文链接:https://realpython.com/python-type-checking/作者:Geir Arne Hjelle译者&#xff1a;陈祥安在本指南中&#xff0c;你将了解Python类型检查。传统上&#xff0c;Python解释器以灵活但隐式的方式处理类型。…

java 图片分段上传_java 分段读取文件 并通过HTTP上传

1、首先将文件分段&#xff0c;用RandomAccessFile2、分段后将分出的内容上传到http1.[代码][Java]代码URL url new URL(actionUrl);HttpURLConnection con (HttpURLConnection) url.openConnection();/** 允许Input、Output&#xff0c;不使用Cache */con.setDoInput(true);…

python算法的基本原理_kNN算法基本原理与Python代码实践

kNN是一种常见的监督学习方法。工作机制简单&#xff1a;给定测试样本&#xff0c;基于某种距离度量找出训练集中与其最靠近的k各训练样本&#xff0c;然后基于这k个“邻居”的信息来进行预测&#xff0c;通常&#xff0c;在分类任务中可使用“投票法”&#xff0c;即选择这k个…