【python】python新闻文本数据统计和聚类 (源码+文本)【独一无二】

请添加图片描述


👉博__主👈:米码收割机
👉技__能👈:C++/Python语言
👉公众号👈:测试开发自动化【获取源码+商业合作】
👉荣__誉👈:阿里云博客专家博主、51CTO技术博主
👉专__注👈:专注主流机器人、人工智能等相关领域的开发、测试技术。


【python】python新闻文本数据统计和聚类 (源码+文本)【独一无二】


目录

  • 【python】python新闻文本数据统计和聚类 (源码+文本)【独一无二】
  • 一、设计要求
  • 二、功能展示
    • 2.1. 去除停用词
    • 2.2 关键词提取
    • 2.3. 聚类群集
    • 2.4. 聚类可视化
  • 三、代码解析
      • 1. 导入库和设置基本信息
      • 2. 读取中文停用词
      • 3. 文本预处理函数
      • 4. 提取文件夹内所有文件的预处理文本
      • 5. 使用TF-IDF进行向量化
      • 6. 执行KMeans聚类
      • 7. 输出每个文件的聚类结果
      • 8. 关键词提取
      • 9. 展示每个文本的关键词
      • 10. 使用PCA进行降维并绘制聚类结果


一、设计要求

新闻文本数据存储于文件“新闻文本”文件夹中

在这里插入图片描述

👉👉👉 源码获取 关注【测试开发自动化】公众号,回复 “ 新闻文本聚类 ” 获取。👈👈👈

使用Python完成如下内容:

(1)使用代码打开给定文件夹中的文本文件进行内容读取,提取摘要内容(AB
标签内容)进行文本预处理(分词、停用词“中文停用词.txt”去除等),并展示结果;

(2)提取每个 text 文本的关键词(词频或其他方法)并展示结果;

(3)使用词频或其他方法对每个 txt 进行向量表示,并基于此对文档进行聚类。

👉👉👉 源码获取 关注【测试开发自动化】公众号,回复 “ 新闻文本聚类 ” 获取。👈👈👈


二、功能展示

2.1. 去除停用词

在这里插入图片描述

2.2 关键词提取

在这里插入图片描述

👉👉👉 源码获取 关注【测试开发自动化】公众号,回复 “ 新闻文本聚类 ” 获取。👈👈👈

2.3. 聚类群集

在这里插入图片描述

👉👉👉 源码获取 关注【测试开发自动化】公众号,回复 “ 新闻文本聚类 ” 获取。👈👈👈

2.4. 聚类可视化

在这里插入图片描述

👉👉👉 源码获取 关注【测试开发自动化】公众号,回复 “ 新闻文本聚类 ” 获取。👈👈👈


三、代码解析

1. 导入库和设置基本信息

import os
import jieba
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.cluster import KMeans
import matplotlib.pyplot as plt
from sklearn.decomposition import PCA
import numpy as npplt.rcParams["font.sans-serif"] = ["SimHei"]folder_path = r'.\新闻文本'

首先,导入了所需的库,并设置了文件夹路径。代码中使用了jieba进行中文分词,TfidfVectorizer进行TF-IDF特征提取,KMeans进行文本聚类,matplotlib进行可视化,以及PCA进行数据降维。

👉👉👉 源码获取 关注【测试开发自动化】公众号,回复 “ 新闻文本聚类 ” 获取。👈👈👈

2. 读取中文停用词

with open('中文停用词.txt', 'r', encoding='utf-8') as f:stop_words = [line.strip() for line in f.readlines()]

这部分代码读取了中文停用词表,并将其存储在stop_words列表中。停用词通常是指在信息检索中,为节省存储空间和提高搜索效率,在处理自然语言数据(或文本)之前或之后会自动过滤掉的字词。

👉👉👉 源码获取 关注【测试开发自动化】公众号,回复 “ 新闻文本聚类 ” 获取。👈👈👈

3. 文本预处理函数

def preprocess_text(file_path, stop_words):with open(file_path, 'r', encoding='gbk') as file:text = file.read()# 略....words = [word for word in words if word not in stop_words]return ' '.join(words)

该函数接收文件路径和停用词列表作为参数,读取文件内容,然后使用jieba进行中文分词,最后去除停用词并返回处理后的文本。

4. 提取文件夹内所有文件的预处理文本

texts = []
for file_name in os.listdir(folder_path):if file_name.endswith('.txt'):file_path = os.path.join(folder_path, file_name)try:# 略....except:continue

这部分代码遍历指定文件夹内的所有.txt文件,对每个文件调用预处理函数,并将处理后的文本添加到texts列表中。

👉👉👉 源码获取 关注【测试开发自动化】公众号,回复 “ 新闻文本聚类 ” 获取。👈👈👈

5. 使用TF-IDF进行向量化

vectorizer = TfidfVectorizer()
tfidf_matrix = vectorizer.fit_transform(texts)

这里使用TfidfVectorizer对预处理后的文本进行TF-IDF向量化,将文本转换为TF-IDF特征矩阵。

6. 执行KMeans聚类

num_clusters = 5
km = KMeans(n_clusters=num_clusters)
# 略....

使用KMeans算法对TF-IDF特征矩阵进行聚类,将文本数据分为预设的5个类别(num_clusters=5)。

7. 输出每个文件的聚类结果

clusters = km.labels_.tolist()
for file_name, cluster in zip(file_names, clusters):print(f'{file_name} 属于群集 {cluster}')

这部分代码输出了每个文件所属的聚类结果。

👉👉👉 源码获取 关注【测试开发自动化】公众号,回复 “ 新闻文本聚类 ” 获取。👈👈👈

8. 关键词提取

def extract_keywords(tfidf_matrix, vectorizer, top_n=5):indices = tfidf_matrix.toarray().argsort(axis=1)feature_names = vectorizer.get_feature_names_out()# 略....return keywords_list

这个函数用于从TF-IDF特征矩阵中提取关键词,选取每个文本中TF-IDF分数最高的词作为关键词。

9. 展示每个文本的关键词

keywords = extract_keywords(tfidf_matrix, vectorizer)
for file_name, keyword in zip(file_names, keywords):print(f'{file_name} 的关键词: {keyword}')

这部分代码展示了每个文本的关键词。

👉👉👉 源码获取 关注【测试开发自动化】公众号,回复 “ 新闻文本聚类 ” 获取。👈👈👈

10. 使用PCA进行降维并绘制聚类结果

pca = PCA(n_components=2)
two_dim_data = pca.fit_transform(tfidf_matrix.toarray())

这里使用PCA将TF-IDF特征矩阵降维到2维,以便于可视化展示。

plt.figure(figsize=(10, 10))
for i in range(num_clusters):points = two_dim_data[np.array(clusters) == i]plt.scatter(points[:, 0], points[:, 1], label=f'Cluster {i}')centers = pca.transform(km.cluster_centers_)
plt.scatter(centers[:, 0], centers[:, 1], s=100, c='black', marker='x', label='Centers')plt.title('KMeans聚类可视化')
plt.xlabel('PCA Feature 1')
plt.ylabel('PCA Feature 2')
plt.legend()
plt.show()

这段代码绘制了聚类结果的可视化图像,每个聚类用不同颜色表示,聚类中心用黑色叉号标记。

👉👉👉 源码获取 关注【测试开发自动化】公众号,回复 “ 新闻文本聚类 ” 获取。👈👈👈

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/2385.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Bentley二次开发教程02-开发环境搭建

1 Bentley 平台介绍 图 1 Bentley 平台介绍 Bentley 软件大致可分为四大平台,分别为用于设计的 Microstation 平台,用于协同的 ProjectWise 平台,用于对资产进行全生命周期管理的 AssetWise 平台和数据互联互通的 数字孪生平台 iTwin。 1.1 …

Linux文件系统与日志

一、inode和block 文件数据包括元信息与实际数据,文件存储在硬盘上,硬盘最小存储单位是扇区,每个扇区存储512字节 1.block(块):文件系统中用于存储文件实际数据的最小单位,由文件系统进行分配和管理,并通…

【电子通识】什么是8D分析法?8D步骤及用法?

在问题分析时往往会听到8D报告这样的词汇。如在电源专题【电源专题】案例:电源芯片厂家怎么判断电源芯片端口是否损坏中我们使用的图片就来源于电源芯片厂家的8D报告。 什么是8D分析法? 8D问题分析由美国国防部于1974年创立,当时用于军用物资采购保障。目前在汽车产业、组装…

MapReduce案例-电影网站数据统计分析

本文适合大数据初学者学习MapReduce统计分析业务问题的步骤和基础的MapReduce编程方法,初步掌握Hadoop对计算任务的管理。 本文末尾有全部数据集和完整代码连接。 1.准备工作 安装Hadoop:Hadoop 3.3.2 离线安装-CSDN博客 按照好Hadoop之后要检查一下datanode运行情况…

在控制台实现贪吃蛇

在控制台实现贪吃蛇 前备知识Win32APICOORD这个结构体的声明如下:GetStdHandle 函数GetConsoleCursorInfo 函数SetConsoleCursorInfo 函数 SetConsoleCursorPosition 函数getAsyncKeyState 函数 控制台窗口的大小以及字符打印介绍控制台中的坐标宽字符及本地化介绍s…

SRS服务接入华为云CDN

CDN简介: CDN的全称是Content Delivery Network,即内容分发网络。其基本思路是尽可能避开互联网上有可能影响数据传输速度和稳定性的瓶颈和环节,使内容传输得更快、更稳定。通过在网络各处放置节点服务器所构成的在现有的互联网基础之上的一层智能虚拟网…

SSH远程连接docker容器-Linux-SSH -L 打隧道

问题:在物理机上用podman创建了一个容器,想SSH直接远程连接docker容器 解决方式: 步骤1: 在本地terminal输入以下命令: ssh -L 容器端口号:localhost:容器端口号 物理机用户名物理机ip -p 物理机端口号 即可,可新打…

centos7+mysql57安装以及初始化

1、下载安装yum官方mysql源: http://repo.mysql.com/ ![在这里插入图片描述](https://img-blog.csdnimg.cn/direct/061472a86e9e4548b76d4603d4614568.png rpm -ivh mysql57-community-release-el7.rpm2、yum安装mysql服务 yum install -y mysql-community-server…

423 世界读书日 和京东零售技术人一起读好书

我们正处于一个复杂、变化的世界,想要更好地理解、适应它,读书可能是最方便的方式之一。 4 月 23 日世界读书日,我们整理了 10 位零售技术人的书籍推荐给大家,欢迎大家一起来共读好书。愿大家在忙碌工作之余,都能够持…

从0到1实现RPC | 接入Apollo配置中心

一、代码实现 添加依赖 添加apollo客户端的依赖和spring配置相关依赖 添加监听器 通过实现ApplicationContextAware接口,获取Spring上下文。 使用ApolloConfigChangeListener注解监听命名空间rpc-demo-provider.yaml和默认的application.properties。 监听逻辑…

开源大模型王者归来:llama3最大4000亿参数,性能GPT4相当,超越Grok3140亿且全开源代码

llama3&Grok 目前开源的超级大模型有Gork和Llama3 https://github.com/xai-org/grok-1;该模型称为史上最大开源LLM,参数高达3140亿!马斯克如约开源Grok,10小时狂揽10000颗Star,搞笑的是这个模型只开源了推理没有训…

17.Nacos与Eureka区别

Nacos会将服务的提供者分为临时实例和非临时实例。默认为临时实例。 临时实例跟eureka一样,会向注册中心报告心跳监测自己是否还活着。如果不正常了nacos会剔除临时实例。(捡来的孩子) 非临时实例,nacos会主动询问服务提供者是否…

古董展新风尚:山海鲸数据大屏引领科技潮流

在数字化浪潮的推动下,传统文化与现代科技正日益融合,展现出独特的魅力。近日,山海鲸推出了一款古董展览数据可视化大屏,将古董藏品的丰富内涵以直观、生动的形式呈现在观众面前,让人们在欣赏古董之美的同时&#xff0…

深入探索GDB:Linux下强大的调试神器

目录 一、GDB简介:源码级调试的基石 二、GDB基础操作:从入门到熟练 启动与基本命令 三、GDB进阶功能:解锁更深层次的调试能力 1. 回溯追踪:洞察调用栈 2. 动态内存检测:揪出内存问题 3. 条件断点与观察点&#…

制氢机远程监控运维方案

制氢机远程监控运维方案 在当今能源转型的大背景下,氢能作为清洁、高效且可再生的能源载体,其重要性日益凸显。而制氢机作为氢能产业链中的关键设备,其稳定运行与高效运维对于保障氢气供应、推动氢能产业健康发展至关重要。在此背景下&#…

基于Linux系统命令行安装KingbaseES数据库

人大金仓通用性数据库(Kingbase)下载网址:人大金仓-成为世界卓越的数据库产品与服务提供商 选择“软件版本-数据库”,筛选条件Linux、完整版。找到需要的版本,点击下载。我下载的是KingbaseES_V008R006C008B0014_Lin6…

实现Spring底层机制(二)

文章目录 阶段2—封装bean定义信息到Map1.代码框架图2.代码实现1.文件目录2.新增注解Scope存储单例或多例信息Scope.java3.修改MonsterService.java指定多例注解4.新增bean定义对象存储bean定义信息BeanDefinition.java5.修改pom.xml增加依赖6.修改容器实现bean定义信息扫描Sun…

nginx开启basic认证

basic认证也叫做http基本认证,防止恶意访问 首先用在线网站生成一个叫做htpasswd的账号密码文件。 将生成结果复制到/etc/nginx/htpasswd文件中 在server的location中配置 server { listen 80; server_name a.com;location / { root html;index index.…

springcloud alibaba 整合seata的TCC

一、seata服务端搭建同上篇。 Seata的AT模式客户端两阶段提交流程源码分析 二、seata客户端的结构 1.示例DEMO工程 下单,扣余额, 减库存。 2. MAVEN配置。 父工程:由于spring-cloud-starter-alibaba-seata依赖的seata-spring-boot-starter…

顺序栈着三种结构定义及其初始化

定义 顺序堆栈这三种结构定义及其初始化 - 知乎 (zhihu.com) 根据以上链接得到: 1.理解为数组,top是这个数组的索引值;定义这个结构体类型时,系统不分配空间 在主函数声明时,定义了关于这个结构体的变量&#xff0c…