004_文本分析与挖掘(jieba库三种分词模式)

jieba库

一、概述

jieba 库的分词原理是利用一个中文词库，将待分词的内容与分词词库进行比对，通过图结构和动态规划方法找到最大概率的词组；除此之外，jieba 库还提供了增加自定义中文单词的功能。

支持三种分词模式

1、精确模式，试图将句子最精确地切开，适合文本分析；

result1 = jieba.cut(str2)

2、全模式，把句子中所有的可以成词的词语都扫描出来, 速度非常快，但是不能解决歧义；

result2 =jieba.cut(str1,cut_all = True)

3、搜索引擎模式，在精确模式的基础上，对长词再次切分，提高召回率，适合用于搜索引擎分词。

result3 = jieba.cut_for_search(str3)

二、jupyter安装jieba库

输入pip install jieba wordcloud -i https://pypi.tuna.tsinghua.edu.cn/simple安装jieba和词云

安装完成！

三、代码演示

代码与结果展示：

代码

import jiebastr = "本法所称突发事件，是指突然发生，造成或者可能造成严重社会危害，需要采取应急处置措施予以应对的自然灾害、事故灾难、公共卫生事件和社会安全事件。"# 精准模式：将句子最精确地切开，适合文本分析
result1 = jieba.cut(str)
print("/".join(result1))# 全模式：所有的可以成词的词语都扫描出来（会有重叠的词）
result2 =jieba.cut(str,cut_all = True)
print("/".join(result2))# 搜索引擎模式：在精确模式的基础上，对长词再次切分，提高召回率，适合用于搜索引擎分词。
result3 = jieba.cut_for_search(str)
print("/".join(result3))