【Python】jieba分词基础

jieba分词主要有3种模式:

1、精确模式:jieba.cut(文本, cut_all=False)

2、全模式:jieba.cut(文本, cut_all=True)

3、搜索引擎模式:jieba.cut_for_search(文本)

分词后的关键词提取:

jieba.analyse.textrank(txt,topK=20, withWeight=False)

topK:要提取的关键词个数,默认为20

withWeight:是否返回关键词权重,默认为False

allowPOS:是否指定关键词词性(名词、形容词、动词),默认为空,也就是不筛选

import jieba.analyse
import jieba
import chardet
import wordcloud# 文件路径
path = 'C:\\Users\\86185\\PycharmProjects\\pythonProject\\practice\\txt'
file='lsm.txt'
#指定文件
txt_url=path+'\\'+file
#打开文件,这一次打开主要是为了获取编码格式
with open(txt_url, 'rb') as f:cont = f.read()encoding = chardet.detect(cont)['encoding']if encoding == 'GB2312':encoding = 'gbk'elif encoding == None:encoding = 'utf-8'f.close()#打开文件内容
with open(txt_url, encoding=encoding) as f:txt = f.read()txt_word=jieba.cut_for_search(txt)#print(list(txt_word))txt_main=jieba.analyse.textrank(txt,topK=20, withWeight=False)print(txt_main)

如果展示权重:

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/182204.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

PPP/INS紧组合代码学习

前言: 本文是基于IGNAV的PPP/INS紧组合学习,在此之前需要具备GNSS/INS松组合知识,武汉大学的i2nav实验室的KF-GINS项目可以作为学习模板。可以参考这篇优秀博文,链接:KF-GINS源码阅读_李郑骁学导航的博客-CSDN博客 IG…

Kubernetes技术与架构-安全性

本文主要从不同层面与多个维度描述Kubernetes技术与架构的安全性。 云原生的安全性 从系统分层架构的角度分析,自底向上,云原生的安全性主要包括云、集群、容器以及代码四个层面,简称云原生4C安全,其架构图如下所示:…

Vue3水印(Watermark)

APIs 参数说明类型默认值必传width水印的宽度,默认值为 content 自身的宽度numberundefinedfalseheight水印的高度,默认值为 content 自身的高度numberundefinedfalserotate水印绘制时,旋转的角度,单位 number-22falsezIndex追加…

ubuntu系统进入休眠后cuda初始化报错

layout: post # 使用的布局(不需要改) title: torch.cuda.is_available()报错 # 标题 subtitle: ubuntu系统进入休眠后cuda初始化报错 #副标题 date: 2023-11-29 # 时间 author: BY ThreeStones1029 # 作者 header-img: img/about_bg.jpg #这篇文章标题背…

解锁Jira本地部署的数据中心版高级功能,打造高效、智能、精细化的项目管理

近日,在龙智携手Atlassian与JFrog共同举办的“大规模开发创新:如何提升企业级开发效率与质量”的线下研讨会中,龙智高级咨询顾问、Atlassian认证专家叶燕秀为大家带来了精彩演讲,解锁Jira Data Center版的诸多高级功能&#xff0c…

【LeetCode刷题-字符串】--71.简化路径

71.简化路径 思路: 对于给定的字符串,先根据/分割成一个由若干字符串组成的列表,记为names,根据题意names中包含的字符串只能是以下几种: 空字符串一个点两个点只包含英文字母、数字或_的目录名 对于空字符串和一个…

Windows下命令行启动与关闭WebLogic的相关服务

WebLogic 的服务器类型 WebLogic提供了三种类型的服务器: 管理服务器节点服务器托管服务器 示例和关系如下图: 对应三类服务器, 就有三种启动和关闭的方式。本篇介绍使用命令行脚本的方式启动和关闭这三种类型的服务器。 关于WebLogic 的…

分析某款go端口扫描器之一

一、概述 进来在学go的端口检测部分,但是自己写遇到很多问题,又不知道从何入手,故找来网上佬们写的现成工具,学习一波怎么实现的。分析过程杂乱,没啥思路,勿喷。 项目来源:https://github.com/…

如何高效解析不定长度的协议帧

通信设计中考虑协议的灵活性,经常把协议设计成“不定长度”。一个实例如下图:锐米LoRa终端的通信协议帧。 如果一个系统接收上述“不定长度”的协议帧,将会有一个挑战--如何高效接收与解析。 为简化系统设计,我们强烈建议您采用“…

hql面试题之字符串使用split分割,并选择其中的一部分字段的问题

版本:20231109 1.题目: 有两张表,a表有id和abstringr两个字段,b表也有id和bstr两个字段,具体如下 A表: 1abc,bcd,cdf2123,456,789 B表: 1acddef2123456 在a表的abstring字段中用‘,’分割,并取出前两…

关于MySQL的66个问题

SQL基础掌握不错的小伙伴可以跳过这一部分。当然,可能会现场写一些SQL语句,SQ语句可以通过牛客、LeetCode、LintCode之类的网站来练习。 1. 什么是内连接、外连接、交叉连接、笛卡尔积呢? 内连接(inner join)&#xf…

05_MySQL主从复制架构

任务背景 ##一、真实案例 某同学刚入职公司,在熟悉公司业务环境的时候,发现他们的数据库架构是一主两从,但是两台从数据库和主库不同步。询问得知,已经好几个月不同步了,但是每天会全库备份主服务器上的数据到从服务…

k8s安装步骤

环境: 操作系统:win10 虚拟机:VMware linux发行版:CentOS7.9 CentOS镜像:CentOS-7-x86_64-DVD-2009 master和node节点通信的ip(master): 192.168.29.164 0.检查配置 本次搭建的集群共三个节点,…

2023年【安全员-A证】考试题及安全员-A证最新解析

题库来源:安全生产模拟考试一点通公众号小程序 安全员-A证考试题考前必练!安全生产模拟考试一点通每个月更新安全员-A证最新解析题目及答案!多做几遍,其实通过安全员-A证模拟考试题很简单。 1、【多选题】下列关于高处作业吊篮叙…

【Redis基础】Redis基本的全局命令

✅作者简介:大家好,我是小杨 📃个人主页:「小杨」的csdn博客 🐳希望大家多多支持🥰一起进步呀! Redis基本的全局命令 1,KEYS命令 语法:KEYS pattern KEYS命令用来查询服…

Python内置类属性`__name__`属性的使用教程

更多Python学习内容:ipengtao.com Python中的__name__是一种内置的特殊属性,通常用于判断模块是作为主程序运行还是作为模块被导入。本文将深入讲解__name__属性的用法,通过丰富的示例代码展示其在不同情景下的应用。 模块作为主程序运行 当一…

统信UOS_麒麟KYLINOS上使用远程SSH连接的工具electerm

原文链接:统信UOS/麒麟KYLINOS上使用SSH工具electerm Hello,大家好啊!在我们日常的工作和学习中,远程控制和管理服务器已经成为一项常见且必要的技能。尤其是对于IT专业人士和开发者来说,一个高效、稳定的远程SSH连接工…

一款LED段码显示屏驱动芯片方案

一、基本概述 TM1620是一种LED(发光二极管显示器)驱动控制专用IC,内部集成有MCU数字接口、数据锁存器、LED驱动等电路。本产品质量可靠、稳定性好、抗干扰能力强。 二、基本特性 采用CMOS工艺 显示模式(8段6位~10段4位&#xff…

模拟Spring源码思想,手写源码,理解@Component,@Value,@Autowired,@Qualifier四个注解

1、BeanDefinition package com.csdn.myspring; import lombok.AllArgsConstructor; import lombok.Data; Data AllArgsConstructor public class BeanDefinition {private String beanName;private Class beanClass; }2、扫描包的工具类MyTools package com.csdn.myspring; im…

排序算法基本原理及实现2

📑打牌 : da pai ge的个人主页 🌤️个人专栏 : da pai ge的博客专栏 ☁️宝剑锋从磨砺出,梅花香自苦寒来 🌤️冒泡排序 &#x1…