python jieba中文文本切割成句子

# -*- coding: utf-8 -*-
# @Time    : 2024/6/18 10:26
# @Author  : Cocktail_py
import jieba.posseg as psegdef cut_sentences(text):"""中文句子分割"""# 使用jieba的分句模块sentences = pseg.cut(text)result = []tmp = []for word, flag in sentences:if word in ['。','!','?'] and flag == 'x':  # 'x'表示单独一个句子tmp.append(word)if tmp:result.append(''.join(tmp))tmp = []else:tmp.append(word)if tmp:result.append(''.join(tmp))return resulttext = "你好,我是小明。我今年18岁了。"
print(cut_sentences(text))

当遇到以下异常时降低jieba版本,改为jieba==0.40即可

TypeError: __repr__ returned non-string (type bytes)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/30136.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

要颜值有颜值,有性价比有性价比,华硕天选键、鼠组合分享

作为ROG产品的忠实粉丝,用过不少ROG 相关的产品,近期华硕天选TX98和天选MINI 鼠标的发布,独特配色令我眼前一亮。 华硕天选TX98键盘,作为新品,从看上的第一眼就觉得这款键盘是非常值得推荐。 它完美地诠释了潮玩新次元…

亲测:无影云电脑免费三个月已经缩短为1个月

亲测:无影云电脑免费三个月已经缩短为1个月,大家不要再找3个月的无影云电脑,已经没有了,目前最新消息是1个月。以前可以领3个月,现在只能领1个月,在阿里云免费中心 https://free.aliyun.com/ 大家自己看吧&…

光伏电站管理app,一站式管理,一体化接单

早在1839年,法国科学家贝壳雷尔就发现了“光伏效应”,随后诞生了“光学发电”技术。随着现代化与工业化的不断发展、进步,出于资源再生与保护环境的需要,人们越来越重视光伏发电技术,也越来越追求光伏电站的智能化管理…

JavaScript------const

这里写目录标题 介绍在声明时赋值不是真正的常数常量对象可以更改常量数组可以更改 介绍 ES2015 引入了两个重要的 JavaScript 新关键词:let 和 const。 通过 const 定义的变量与 let 变量类似,但不能重新赋值: const PI 3.1415926535897…

Java中的运算符及其示例

Java中的运算符及其示例 运算符是指示编译器执行特定操作的符号。例如,“”运算符指示编译器执行加法,“>”运算符指示编译执行比较,“”用于赋值等等。在本指南中,我们将借助示例讨论java中的操作。 运算符和操作数&#…

钽掺杂锂镧锆氧(LLZTO)是优秀固态电解质 未来行业前景良好

钽掺杂锂镧锆氧(LLZTO)是优秀固态电解质 未来行业前景良好 钽掺杂锂镧锆氧,也称为锂镧锆钽氧,英文简称LLZTO,外观为白色或淡黄色结晶粉末状。LLZTO具有锂离子电导率高、对锂化学性质稳定等特点,是一种立方晶…

C++迈向精通:函数指针对象与函数对象

C:指针对象 C语言中的函数指针 在C语言中,我们见过如下的函数指针: int add(int a, int b) {return a b; }int main() {int a, b;int (*p)(int, int) add;scanf("%d%d", &a, &b);p(a, b);return 0; } 为了适应C中面向…

BPE (Byte-Pair Encoding) Tokenization

目录 一、Tokenization 的概念二、BPE 的概念三、BPE 的步骤 遇到看不明白的地方,欢迎在评论中留言呐,一起讨论,一起进步! 需掌握的前提知识: 本文参考: P24 台大资讯 2023秋季 深度学习之应用 &#xff5…

mybatis使用注解形式实现一对多、多对多查询(转载)

1、链接:一对一,一对多 2、多对多 原文 MyBatis的注解实现复杂映射开发 实现复杂关系映射之前我们可以在映射文件中通过配置来实现,使用注解开发后,我们可以使用Results注解,Result注解,One注解&#x…

Java学习笔记之基本数据类型转换

前言 本篇文章是基于我本人在初学JAVA阶段想记录的的学习笔记,如有错误,恳请指正。今天要干掉的是JAVA的基本数据类型转换。 笔记目录一览 前言一,基本数据类型复习二,基本介绍什么是自动类型转换? 三,任…

nvidia-smi命令详解

参考: https://zhuanlan.zhihu.com/p/664550672 NVIDAI-SMI Version 版本号; Driver Version 驱动版本号; CUDA Version 版本号; GPU 型号及序号; 风扇; 温度; Perf 性能状态; Pers…

达梦数据库的分区表

达梦数据库的分区表 达梦数据库(DM Database)提供了灵活和强大的分区表功能,以更高效地管理和操作大规模数据集。分区表通过将数据分割成更小、更易管理的部分,可以显著提高查询性能、缩短维护时间、并提高系统的总体可扩展性。 …

统计信号处理基础 习题解答10-15

题目 对随机变量的随机性的一个度量是它的熵(entropy),熵定义为: 如果,求这个熵,并说明它与PDF集中度的关系。观察到数据后,后验PDF的熵可以确定为: 且它应该比小。因此&#xff0c…

《无与伦比》Centos7 开放端口

例如我想开放80端口,那么命令就是: firewall-cmd --zonepublic --add-port80/tcp --permanent firewall-cmd --reload centos 关闭防火墙 systemctl stop firewalld.service 查看防火墙状态 firewall-cmd --state centOS7.4 关闭防火墙 systemctl stop f…

前端常用6种数据加密方式的使用详解

在前端开发中,数据加密是一个重要的安全措施,可以保护用户数据不被轻易窃取或篡改。以下是六种常用的前端数据加密方式及其示例代码和详细讲解: 1. Base64 编码 Base64 是一种基于64个可打印字符来表示二进制数据的表示方法。它不是一种加密…

Python3的requests库,超时参数timeout设置和异常捕获

在Python的requests库中,get()和post()方法都接受一个名为timeout的参数,该参数用于设置请求的超时时间。如果你没有为这些方法设置timeout参数,那么默认情况下它们可能会等待很长时间,直到服务器响应或连接失败。 在Python的req…

Redis 高可用 sentinel

简介 Sentinel提供了一种高可用方案来抵抗节点故障,当故障发生时Redis集群可以自动进行主从切换,程序可以不用重启。 Redis Sentinel集群可以看成是一个Zookeeper集群,他是Redis集群高可用的心脏,一般由3-5个节点组成&#xff0…

人体接近传感器,ATM微波传感器,人体存在传感器 微波探测器YTMW8631

人体接近传感器,ATM微波传感器,人体存在传感器 微波探测器YTMW8631 史新华 批发Atm微波探测器,Atm传感器人体接近传感器,Dvr录像机专用微波感应器,Atm机录像系统专用感应器 微波传感器的多领域应用 微波探测器是利用微波的多普勒效应来探测运动物体&…

Linux系统编程——进程信号

目录 一,信号预备 1.1 生活中的信号 1.2 技术应用中的信号 1.3 signal函数捕捉信号 1.3 信号的发送与记录 1.4 信号的常见处理方式 二,信号的产生 2.1 核心转储 2.1.1 环境配置 2.1.2 利用core文件进行调试 2.1.3 core dump标志 2.2 通过系统…

程序猿大战Python——文件操作、异常、模块——导入模块

导入模块的方式 目标:了解导入模块的方式有哪些? 模块指的是:以.py结尾的Python文件。 注意:模块名属于标识符。 在模块中,能定义函数、变量和类等,也能包含其他一些可执行的代码,比如print(x…