Python jieba库的使用说明

嗨喽~大家好呀,这里是魔王呐 ❤ ~!

python更多源码/资料/解答/教程等 点击此处跳转文末名片免费获取

一、jieba库基本介绍

jieba库概述

jieba是优秀的中文分词第三方库

  • 中文文本需要通过分词获得单个的词语

  • jieba是优秀的中文分词第三方库,需要额外安装

  • jieba库提供三种分词模式,最简单只需掌握一个函数

jieba分词的原理

Jieba分词依靠中文词库

  • 利用一个中文词库,确定汉字之间的关联概率

  • 汉字间概率大的组成词组,形成分词结果

  • 除了分词,用户还可以添加自定义的词组

二、jieba库使用说明

jieba分词的三种模式

精确模式、全模式、搜索引擎模式

  1. 精确模式:把文本精确的切分开,不存在冗余单词

  2. 全模式:把文本中所有可能的词语都扫描出来,有冗余

  3. 搜索引擎模式:在精确模式基础上,对长词再次切分

jieba库常用函数

三、jieba应用实例

四、利用jieba库统计三国演义中任务的出场次数

'''
遇到问题没人解答?小编创建了一个Python学习交流QQ群:926207505
寻找有志同道合的小伙伴,互帮互助,群里还有不错的视频学习教程和PDF电子书!
'''
import  jiebatxt = open("D:\\三国演义.txt", "r", encoding='utf-8').read()
words = jieba.lcut(txt)     # 使用精确模式对文本进行分词
counts = {}     # 通过键值对的形式存储词语及其出现的次数for word in words:if  len(word) == 1:    # 单个词语不计算在内continueelse:counts[word] = counts.get(word, 0) + 1    # 遍历所有词语,每出现一次其对应的值加 1items = list(counts.items())#将键值对转换成列表
items.sort(key=lambda x: x[1], reverse=True)    # 根据词语出现的次数进行从大到小排序for i in range(15):word, count = items[i]print("{0:<5}{1:>5}".format(word, count))

统计了次数对多前十五个名词,曹操不愧是一代枭雄,第一名当之无愧,

但是我们会发现得到的数据还是需要进一步处理,比如一些无用的词语,一些重复意思的词语。

尾语

最后感谢你观看我的文章呐~本次航班到这里就结束啦 🛬

希望本篇文章有对你带来帮助 🎉,有学习到一点知识~

躲起来的星星🍥也在努力发光,你也要努力加油(让我们一起努力叭)。

最后,宣传一下呀~👇👇👇更多源码、资料、素材、解答、交流皆点击下方名片获取呀👇👇

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/101817.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Java实验一 Java语言基础(12题)

文章目录&#xff1a; 1、我国历法中的天干、地支和生肖的排列是有规律的。天干的顺序是“甲乙丙丁戊己庚辛壬癸”&#xff0c;地支的顺序是“子丑寅卯辰巳午未申酉戌亥”&#xff0c;生肖的顺序是“鼠牛虎兔龙蛇马羊猴鸡狗猪”。天干、地支、生肖的计算方法非常简单&#xff…

新手如何快速上手HTTP爬虫IP?

对于刚接触HTTP爬虫IP的新手来说&#xff0c;可能会感到有些困惑。但是&#xff0c;实际上HTTP爬虫IP并不复杂&#xff0c;只要掌握了基本的操作步骤&#xff0c;就可以轻松使用。本文将为新手们提供一个快速上手HTTP爬虫IP的入门指南&#xff0c;帮助您迅速了解HTTP爬虫IP的基…

速通RabbitMQ的五种常见消费模型

目录 引言1. 简单队列模型&#xff08;Simple Queue Model&#xff09;优缺点及适用场景代码示例 2. 工作队列模型&#xff08;Work Queue Model&#xff09;优缺点及适用场景代码示例 3. 发布/订阅模型&#xff08;Publish/Subscribe Model&#xff09;优缺点及适用场景代码示…

08. 机器学习- 线性回归

文章目录 线性回归 LINEAR REGRESSION 从本次课程开始&#xff0c;大部分时候我将不再将打印结果贴出来了&#xff0c;因为太占用篇幅。小伙伴可以根据我的输出执行敲一遍代码来进行学习和验证。 同样是为了节省篇幅&#xff0c;我也不会再一行行那么仔细的解释代码了&#xff…

C语言中文网 - Shell脚本 - 5

第1章 Shell基础&#xff08;开胃菜&#xff09; 5. Linux Shell命令的基本格式 进入 Shell 以后&#xff0c;我们就可以输入命令来使用 Linux 的各种功能了&#xff0c;但是在真正使用 Shell 命令之前&#xff0c;我们有必要先学习一下 Shell 命令的基本格式。 进入 Shell 之…

python基础语法(五)

目录 函数函数是什么语法格式函数参数函数返回值 感谢各位大佬对我的支持,如果我的文章对你有用,欢迎点击以下链接 &#x1f412;&#x1f412;&#x1f412;个人主页 &#x1f978;&#x1f978;&#x1f978;C语言 &#x1f43f;️&#x1f43f;️&#x1f43f;️C语言例题 &…

Springcloud中间件-----分布式搜索引擎 Elasticsearch

该笔记是根据黑马程序员的课来自己写了一遍的,b站有对应教程和资料 第一部分 第二部分 第三部分 预计看完跟着练习5小时足够 1.初识elasticsearch 1.1.了解ES 1.1.1.elasticsearch的作用 elasticsearch是一款非常强大的开源搜索引擎&#xff0c;具备非常多强大功能&#xff…

提升战斗力!吃鸡行家分享顶级游戏干货,助你轻松拿下绝地求生

作为吃鸡行家&#xff0c;我们都知道&#xff0c;在绝地求生中提高战斗力至关重要。今天我来分享一些独特的干货&#xff0c;帮助你成为顶级的吃鸡玩家&#xff0c;并分享一些方便吃鸡作图、装备皮肤库存展示和查询的技巧。 首先&#xff0c;让我们来谈谈绝地求生作图工具推荐。…

花体字母代表什么

26个英文字母的花体字如下&#xff1a; 大写&#xff1a;&#x1d4d0;&#x1d4d1;&#x1d4d2;&#x1d4d3;&#x1d4d4;&#x1d4d5;&#x1d4d6;&#x1d4d7;&#x1d4d8;&#x1d4d9;&#x1d4da;&#x1d4db;&#x1d4dc;&#x1d4dd;&#x1d4de;&#x…

网络架构介绍

1 网络 7 层架构 7 层模型主要包括&#xff1a; 1. 物理层&#xff1a;主要定义物理设备标准&#xff0c;如网线的接口类型、光纤的接口类型、各种传输介质的传输速率等。它的主要作用是传输比特流&#xff08;就是由 1、0 转化为电流强弱来进行传输,到达目的地后在转化为1、0…

深度学习DAY3:激活函数

激活函数映射——引入非线性性质 h &#xff08;Σ(W * X)b&#xff09; yσ&#xff08;h&#xff09; 将h的值通过激活函数σ映射到一个特定的输出范围内的一个值&#xff0c;通常是[0, 1]或[-1, 1] 1 Sigmoid激活函数 逻辑回归LR模型的激活函数 Sigmoid函数&#xff0…

深度学习_2_数据处理

import os是一个Python的内置模块&#xff0c;用于与操作系统进行交互。通过导入os模块&#xff0c;你可以使用其中提供的函数和方法来执行各种与操作系统相关的任务。 import osos.makedirs(os.path.join(.., date), exist_okTrue)##将创建一个名为date的文件夹&#xff0c;位…

LeetCode【279】完全平方数

题目&#xff1a; 思路&#xff1a; https://www.acwing.com/solution/leetcode/content/114877/ 1、给定数字&#xff0c;是由若干个完全平方数组合而成&#xff0c;求使用的最小的完全平方数的个数&#xff0c;如果这些完全平方数已知&#xff0c;则完全等同于百元百鸡问题…

VIM指令

vim的工作模式 vim一般有6种工作模式。 普通模式&#xff1a;使用vim打开一个文件时默认模式&#xff0c;也叫命令模式&#xff0c;允许用户通过各种命令浏览代码、滚屏等操作。 插入模式&#xff1a;也可以叫做编辑模式&#xff0c;在普通模式下敲击 i 、a 或 o 就进入插入模…

UE5.3.1 无法创建C++ 工程问题解决方法

UE5.3.1 创建C工程提示DONET问题&#xff0c;直接下载最新版本的NET8.0的SDK安装即可解决&#xff01; 下载地址&#xff1a;下载 .NET 8.0 SDK (v8.0.100-rc.2) - Windows x64 Installer

【Nginx31】Nginx学习:代理模块(五)变量与其它配置

Nginx学习&#xff1a;代理模块&#xff08;五&#xff09;变量与其它配置 Nginx 在不同的模块中&#xff0c;会提供一些变量&#xff0c;这个我们之前应该已经看过很多了。特别是 HTTP 核心模块中&#xff0c;提供了非常多的变量可以供我们使用。而在 Proxy 模块中&#xff0c…

Java基于SpringBoot的高校招生系统

博主介绍&#xff1a;✌程序员徐师兄、7年大厂程序员经历。全网粉丝30W、csdn博客专家、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和毕业项目实战✌ 文章目录 简介系统设计思路1 数据库设计2 系统整体设计 系统详细设计1系统功能模块2. 管理员功能模块3学生…

适用于嵌入式单片机的差分升级通用库

转至&#xff1a;痞子衡嵌入式半月刊&#xff1a;第 81 期 1、mcu_bsdiff_upgrade - 适用于嵌入式单片机的差分升级通用库 mcu_bsdiff_upgrade 是一款适用于嵌入式单片机的差分升级库&#xff0c;通用所有单片机&#xff0c;如stm32、华大、复旦微、瑞萨等。适合嵌入式的差分升…

循环神经网络-学习总结1

一、 RNN 1 序列模型 序列数据&#xff1a; 预测明天的股价要比过去的股价更困难&#xff0c;尽管两者都只是估计一个数字。 毕竟&#xff0c;先见之明比事后诸葛亮难得多。 在统计学中&#xff0c;前者&#xff08;对超出已知观测范围进行预测&#xff09;称为外推法&#…

camera bringup介绍

目录 camera bringup需要做什么 camera硬件包括 camera硬件连接关系 camera使用的通信接口 camera sensor cmos sensor 色彩滤镜 sensor输出的分辨率 曝光控制-快门 曝光控制-曝光时间 曝光时间如何控制 曝光控制-帧率 曝光控制-增益 手动曝光 手动设置曝光-长曝…