python拆分句子、去除句子符号等并分词

import redef split_text_into_batches(text, max_tokens_per_batch):# 定义一个正则表达式,在中文标点符号处拆分句子sentence_splitter = re.compile(r'(?<=[。!?])')# 将文本拆分为句子sentences = [sentence.strip() for sentence in sentence_splitter.split(text) if sentence.strip()]# 初始化变量batches = []current_batch = ""for sentence in sentences:if len(current_batch) + len(sentence) <= max_tokens_per_batch:current_batch += sentence + " "else:# 找到距离 max_tokens_per_batch 限制最近的标点符号last_punctuation_index = max(current_batch.rfind('。'), current_batch.rfind('!'), current_batch.rfind('?'))# 如果限制范围内没有标点符号,就在最后一个空格处拆分split_index = last_punctuation_index if last_punctuation_index != -1 else current_batch.rfind(' ')# 将批次添加到拆分索引处batches.append(current_batch[:split_index].strip())# 新批次从拆分索引开始current_batch = sentence + " "if current_batch.strip():  # 确保不将空字符串添加到批次中batches.append(current_batch.strip())return batchestext = ""max_tokens_per_batch = 20
batches = split_text_into_batches(text, max_tokens_per_batch)
print("Batches:", batches)
import re
import nltk
import jieba
nltk.download('punkt')
import string
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize
def clean_html_tags(text):clean_text = re.sub(r'<.*?>', '', text)return clean_textdef remove_links(text):clean_text = re.sub(r'http\S+', '', text)return clean_textdef remove_special_characters(text):clean_text = ''.join(char for char in text if char not in string.punctuation)return clean_textdef remove_extra_whitespace(text):clean_text = ' '.join(text.split())return clean_textdef remove_stopwords(text):stop_words = set(stopwords.words('english'))word_tokens = word_tokenize(text)clean_text = ' '.join(word for word in word_tokens if word.lower() not in stop_words)return clean_textdef clean_chinese_text(text):# 清除HTML标签cleaned_text = clean_html_tags(text)# 去除链接cleaned_text = remove_links(cleaned_text)# 去除特殊字符cleaned_text = remove_special_characters(cleaned_text)# 去除额外的空白cleaned_text = remove_extra_whitespace(cleaned_text)# 去除停用词cleaned_text = remove_stopwords(cleaned_text)# 使用jieba进行分词word_list = jieba.lcut(cleaned_text)# 拼接成清洗后的文本cleaned_text = ' '.join(word_list)return cleaned_textinput_text =""cleaned_text = clean_chinese_text(input_text)
print(cleaned_text)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/593120.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

设计模式:简单工厂模式、工厂方法模式、抽象工厂模式

简单工厂模式、工厂方法模式、抽象工厂模式 1. 为什么需要工厂模式&#xff1f;2. 简单工厂模式2.1. 定义2.2. 代码实现2.3. 优点2.4. 缺点2.5. 适用场景 3. 工厂方法模式3.1. 有了简单工厂模式为什么还需要有工厂方法模式&#xff1f;3.2. 定义3.3. 代码实现3.4. 主要优点3.5.…

深入数组扩展应用

一、字符串反转 例如&#xff1a;‘123abc’----->‘cba321’ 字符串方法实现: var str 123abcvar reversFn function(str) {var newStr for (var i str.length - 1; i > 0; i--) {newStr str[i]}return newStr }console.log(reversFn(str));数组方法实现&#xf…

Elasticsearch:如何使用 Elasticsearch 进行排序

虽然你在唱这首歌时可能会想象圣诞老人&#xff0c;但欧洲民间传说&#xff0c;尤其是阿尔卑斯地区的民间传说&#xff0c;有两个传奇人物圣尼古拉斯和坎普斯。 象征着慷慨和善良的圣尼古拉斯&#xff0c;在 12 月 6 日 为乖巧的孩子们带来礼物和欢乐&#xff01; 相比之下&…

【C语言】作用域 和 生命周期

&#x1f6a9; WRITE IN FRONT &#x1f6a9; &#x1f50e; 介绍&#xff1a;"謓泽"正在路上朝着"攻城狮"方向"前进四" &#x1f50e;&#x1f3c5; 荣誉&#xff1a;2021|2022年度博客之星物联网与嵌入式开发TOP5|TOP4、2021|2222年获评…

MR混合现实情景实训教学系统在法律专业课堂上的应用

MR混合现实情景实训教学系统是一种将虚拟现实&#xff08;VR&#xff09;、增强现实&#xff08;AR&#xff09;相结合的先进技术。在法律教学课堂上&#xff0c;MR教学系统为学生模拟模拟法庭、案例分析等多种形式&#xff0c;让学生在实践中掌握法律知识&#xff0c;提高法律…

JDK下载地址

1.官网下载java 1.8地址&#xff08;需要注册一个oracle账户&#xff09;&#xff1a; Java Downloads | Oracle 清华镜像下载 Index of /AdoptOpenJDK/ | 清华大学开源软件镜像站 | Tsinghua Open Source Mirror 3.华为镜像下载 https://repo.huaweicloud.com/java/jdk/

计算机网络--作业

作业一 1、比较电路交换、报文交换和分组报文交换优缺点 电路交换 电路交换是以电路连接为目的的交换方式&#xff0c;通信之前要在通信双方之间建立一条被双方独占的物理通道&#xff08;由通信双方之间的交换设备和链路逐段连接而成&#xff09;。 优点&#xff1a; ①由于…

实战SRC | api接口未授权 + 越权漏洞

本文由掌控安全学院 - zxl2605 投稿 一次在fofa上通过学习的fofa语句进行查询&#xff0c;无意中查询到了一个网址 其登录界面如下&#xff1a; 使用浏览器的F12打开开发者工具&#xff0c;查看JS寻找接口&#xff1a; 从JS代码中查询到一处接口如下&#xff1a; 发现是以p…

java数据结构

文章目录 一.链表LinkedList1. 创建链表2. 插入元素3. 删除元素4. 访问元素5. 检查元素是否存在6. 遍历链表7. 其他常见操作 ListNode 一.链表 链表&#xff08;LinkedList&#xff09;是Java集合框架&#xff08;Java Collections Framework&#xff09;中的一部分&#xff0…

bilibili深入理解计算机系统笔记(3):使用C语言实现静态链接器

本文是2022年的项目笔记&#xff0c;2024年1月1日整理文件的时候发现之&#xff0c;还是决定发布出来。 Github链接&#xff1a;https://github.com/shizhengLi/csapp_bilibili 文章目录 可执行链接文件(ELF)ELF headerSection header符号表symtab二进制数如何和symtab结构成员…

ELK+kafka+filebeat企业内部日志分析系统搭建

看上面的拓扑图&#xff0c;我们至少准备七台机器进行下面的实验项目。 机器主要作用分布如下: 三台安装elasticsearch来搭建ES集群实现高可用&#xff0c;其他机器就依次安装filebeat,kafka,logstash和kibana软件 一、部署elasticsearch来搭建ES集群 1.安装jdk 由于ES运行…

C语言数组习题

1.数组遍历 #include <stdio.h>int main(){int i,a[10];for(i0;i<9;i) //对数组元素a[0]~a[9]赋值 a[i]i;for(i9;i>0;i--) //输出a[9]~a[0]共10个数组元素 printf("%d ",a[i]);printf("\n");return 0;} 运行结果&#xff1a; 2.数组应用&a…

算法:动态规划

提示&#xff1a;文章写完后&#xff0c;目录可以自动生成&#xff0c;如何生成可参考右边的帮助文档 目录 一、问题描述 二、动态规划算法 总结 提示&#xff1a;以下是本篇文章正文内容&#xff0c;下面案例可供参考 一、问题描述 给定不同面额的硬币 coins 和一个总金额…

LeetCode 26 删除有序数组中的重复项

题目描述 找出字符串中第一个匹配项的下标 给你两个字符串 haystack 和 needle &#xff0c;请你在 haystack 字符串中找出 needle 字符串的第一个匹配项的下标&#xff08;下标从 0 开始&#xff09;。如果 needle 不是 haystack 的一部分&#xff0c;则返回 -1 。 示例 1&…

minio服务数据迁移-rclone迁移工具

一、背景&#xff1a; 在生产运行过程中经常有遇见数据迁移的工作&#xff0c;这里介绍了如何进行minio服务的数据迁移过程。 二、迁移思路&#xff1a; minio服务/集群的数据迁移思路是需要新建一个配置、密码一样的minio服务/集群&#xff1b;在中间服务器上安装rclone工具&a…

atoi函数的模拟实现

这里强力推荐一篇文章 http://t.csdnimg.cn/kWuAm 详细解析了atoi函数以及其模拟实现&#xff0c;我这里就不说了。 这里作者先把自己模拟的代码给大家看一下。 int add(char* arr) {char* arr2 arr;while (*arr!-48){arr;}arr--;int sum 0;int n 0;while (arr ! (arr2-…

如何构建高效测试体系?掌握5大自动化测试模式就够了

软件开发过程中&#xff0c;高效的自动化测试体系是提升测试效率、保证产品质量关键&#xff0c;一个全面的测试体系涵盖多个维度&#xff0c;从功能性到用户界面&#xff0c;再到性能和安全性。 每个维度均采用不同的测试模式来满足特定的需求和解决特别的挑战&#xff0c;本…

快速打通 Vue 3(三):Vue3 中的 watch 监听器与新特性

很激动进入了 Vue 3 的学习&#xff0c;作为一个已经上线了三年多的框架&#xff0c;很多项目都开始使用 Vue 3 来编写了 这一组文章主要聚焦于 Vue 3 的新技术和新特性 如果想要学习基础的 Vue 语法可以看我专栏中的其他博客 Vue&#xff08;一&#xff09;&#xff1a;Vue 入…

风向再生变!智能汽车「竞合」博弈升级

新一轮科技革命影响下&#xff0c;全球汽车产业产品形态和格局被重塑&#xff0c;深度变革也随之而至。 高工智能汽车研究院监测数据显示&#xff0c;中国智能电动市场渗透率从2018年的0.32%&#xff08;占全部新能源车交付量&#xff09;快速提升至2022年的41.84%&#xff1b…

精选免费API接口汇总

笑话大全&#xff1a;各种最新、最及时的幽默、搞笑段子&#xff0c;不间断更新。历史上的今天&#xff1a;看看历史上的今天&#xff0c;都发生了什么重大事件。周公解梦 &#xff1a;周公解梦大全,周公解梦查询&#xff0c;免费周公解梦。标准体重计算器&#xff1a;身体质量…