基于Python的k-means聚类分析算法的实现与应用,可以用在电商评论、招聘信息等各个领域的文本聚类及指标聚类,效果很好

以微博考研话题为例

思路步骤:

数据清洗:

使用pandas读取数据文件,并进行数据清洗和预处理,包括去除重复值、数据替换等。

数据处理实现:

数据处理的过程如下:

数据清洗主要包括去重和数据转换两个步骤。

首先,通过使用drop_duplicates函数对原始数据进行去重操作。在代码中,根据内容这一列进行去重,并将去重后的结果重新赋值给新的DataFrame。这样可以确保每条内容的唯一性,避免出现重复的数据。

接下来,进行数据转换的步骤。转换主要是针对性别和是否认证两个数据,将字符串通过map函数都替换为数值,从而实现清洗效果。

数据清洗是数据分析的前提和基础,通过去重和替换等步骤,可以对原始数据进行初步的处理和整理,为后续的数据分析和挖掘提供高质量、准确的数据基础。清洗后的数据具有更好的可用性和可靠性,能够提供更准确、可靠的结果和结论,从而支持决策和解决实际问题的需求。

聚类分析(main.py):

聚类数量的选择和评估使用拐点法和轮廓系数法实现。通过评估不同聚类数量下的总的簇内离差平方和,可以找到一个合适的聚类数量,以便在K-Means算法(k-means.py)中应用于考研数据的聚类分析。选择最佳的聚类数量有助于获得更准确且有意义的聚类结果,并提供对数据的更深入理解和洞察。

拐点法:

1.聚类数量的选择:

通过调整K值(簇的个数),探索不同聚类数量下的聚类效果。在代码中,通过设置clusters参数来确定聚类数量的范围。例如,设置clusters = 15表示尝试聚类数量从1到15的情况。

2.总的簇内离差平方和(Total SSE)的评估:

使用K-Means算法进行聚类,并计算每个簇的样本离差平方和(SSE)。然后,将每个簇的SSE求和,得到总的簇内离差平方和(Total SSE)。在代码中,通过自定义函数k_SSE绘制了不同聚类数量(K值)与总的簇内离差平方和之和的折线图。

3.拐点法选择最佳聚类数量:

在折线图中观察聚类数量(K值)与总的簇内离差平方和之和的关系。寻找一个拐点,即曲线开始趋于平缓的位置。这个拐点对应的聚类数量通常被认为是最佳的聚类数量。在代码中,通过绘制折线图来观察聚类数量与总的簇内离差平方和之和之间的关系,并根据拐点法选择最佳的聚类数量,拐点法得出的结果如图所示可知,该方法的拐点为3。

轮廓系数法

在选择合适的聚类数量时,使用了轮廓系数法。具体做法是,对于聚类数量从2到14的范围内的每个值,计算对应聚类数量下的轮廓系数得分。轮廓系数(silhouette score)是一种用于评估聚类质量的指标,其取值范围为[-1, 1],越接近1表示聚类效果越好。通过绘制轮廓系数得分随聚类数量变化的曲线图,可以观察到不同聚类数量下的聚类效果,并选择最佳的聚类数量。

最后,代码使用matplotlib库绘制了轮廓系数得分随聚类数量变化的曲线图,横坐标为聚类数量(N 簇),纵坐标为轮廓系数得分(score)。根据曲线图可以进行观察和判断,选择合适的聚类数量,轮廓系数法得到的结果如图可知最合适聚类数=3.

聚类分析实现与结果可视化

实现聚类分析的过程,首先读取数据,并进行数据清洗和预处理。清洗部分包括删除含有空值的数据,预处理部分对数据进行了格式修改和标准化处理。

接下来,使用轮廓系数法选择合适的聚类数量,并绘制了聚类数量与轮廓系数得分之间的曲线图。通过观察曲线图,可以选择最佳的聚类数量。

然后,根据选择的聚类数量,使用KMeans算法进行聚类,并将聚类结果可视化。代码中通过降维算法t-SNE对数据进行降维,然后绘制了降维后的数据和聚类中心的散点图,并根据聚类结果进行着色。最后完成了数据的聚类分析,帮助理解数据在不同特征上的聚类情况,聚类结果如图,其中横坐标是数据降维之后点数据与中心点距离的横坐标,Y轴是数据降维之后点数据与中心点距离的纵坐标,图中的+代表每一个类的中心点

根据对微博内容的聚类分析,可以看出用户在微博中主要讨论了考研相关话题。其中包括考研备考经历、学习进度记录、各学校考研信息分享等内容。用户们在微博中表达了对考研的焦虑、努力学习的决心以及对未来的期待。有些用户分享了自己的学习计划和成果,也有用户寻求学习伙伴互相督促。此外,还有用户分享了考研资讯、心得体会和对未来的展望。整体来看,这些微博内容反映了考研群体的学习状态和情绪,展现了他们对考研目标的追求和努力,同时也体现了他们之间的互动和支持,共同面对考研的压力和挑战。

类别一:考研备考经历分享

这类微博内容主要包括用户对自己考研备考过程中的心情体验、努力学习的决心以及对未来的期待和规划的分享。用户们在微博中记录了自己的学习进度、备考经历和成果,表达了对考研的焦虑和对未来的期

类别二:学习进度记录和资讯分享

这类微博内容主要涵盖用户的学习进度记录、复习计划安排、学习资料整理和考研资讯分享等内容。用户们在微博中分享了自己的学习计划、复习笔记、真题练习情况,也有用户分享了各学校考研信息和最新动态。

类别三:寻求学习伙伴和互相督促

这类微博内容主要是用户在微博上寻找学习伙伴,希望能够互相督促、分享学习经验和生活感悟。用户们希望通过微博平台找到志同道合的伙伴,共同努力学习,互相支持和鼓励。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/15433.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Magisk + JustTrustMe 安装配置

操作步骤: 安装 Magisk 面具(手机root)在面具中刷入 LSPosed框架安装 JustTrustMe在LSPosed框架中配置并启动 JustTrustMe 一,Magisk面具 请根据自己手机的机型去root并安装面具,参考链接: https://www…

QAnything 1.4.1 中的文档解析

2024年初我们开源了QAnything,一个基于检索增强生成式应用(RAG)的本地知识库问答系统。对于本地知识库,QAnything支持多种格式的文档输入,允许用户上传包括PDF、图片、Word、PowerPoint、Excel、TXT,甚至音…

ISCC 2024|Misc

FunZip ISCC{xoMjL8NuYRRb} Number_is_the_key ISCC{Sanoyq6qGIPF} 精装四合一 四张图片尾部都存在多余数据,把多余数据分别提取出来保存成文件,未发现规律。根据提示,预计需要将四部分多余数据进行合并。提取四个部分前16个字节&#xff0…

Linux学习(十二)-- 用户管理与用户组管理、su与exit命令、sudo命令

目录 1. 用户管理 注: 以下命令需root用户执行 1.1 创建用户 1.2 删除用户 1.3 查看用户所属组 1.4 修改用户所属组 2.用户组管理 注: 以下命令需root用户执行 2.1 创建用户组 2.2 删除用户组 拓展: 3. su命令与exit命令 4. sudo…

Python高效数据分析的综合复习指南【时间处理与机器学习】

五、时间处理 一、时间戳-----Timestamp类型 方法1:使用Timestamp创建 pandas.Timestamp(ts_input, freqNone, tzNone, unitNone, yearNone, monthNone, dayNone, hourNone, minuteNone, secondNone, microsecondNone, tzinfoNone, offsetNone) import pandas a…

26计算机操作系统408考研-操作系统进程与线程篇章(三)

操作系统进程与线程篇章 ` 文章目录 操作系统进程与线程篇章前言一、进程概念进程控制块进程创建进程终止进程的阻塞和唤醒进程唤醒进程挂起和激活线程多线程线程实现与线程模型总结互斥和同步并发原理硬件同步信号量机制信号量的应用管程经典同步问题消息传递前言 一、进程概…

碌时刻必备!微信自动回复让你告别消息堆积

在忙碌的时候,我们往往会面临消息堆积如山的情况。无法及时回复消息不仅容易造成交流障碍,还可能错过重要的机会。 但是现在,有一个神奇的工具——个微管理系统,可以帮助我们轻松应对这个问题 ,实现微信自动回复。 首…

Mujava 工具的简单使用

首先下载openjava.jar和mujava.jar,以及自己手写一个mujava.config指向存放mujava的目录,并将这些文件放在mujava目录下。此时,基本的mujava环境就搭建好了。 分别创建src(存放源码文件)、classes(存放源码…

每日一题 求和

1.题目解析 求和_牛客题霸_牛客网 (nowcoder.com) 这一题,主要描述的就是求满足和为m的子序列,对与子序列的问题可以使用决策树。 2.思路分析 决策树如下图所示: 递归结束条件: 当当前和 sum 等于目标和 m 时,说明找到了一个满…

如何在华为手机上恢复已删除的视频[4种解决方案]

概括 在数字媒体时代,智能手机已成为我们的个人金库,存储以视频形式捕捉的珍贵记忆。然而,意外删除这些珍贵的文件可能会是一次令人心痛的经历。对于华为手机用户来说,由于删除或其他意外导致视频丢失尤其令人痛苦。但不用担心&a…

Python 拼图游戏

拼图游戏(puzzle)是一种常见的益智游戏,玩家通过拖动图块来正确拼接成完整的图片。 由一张原图,分割成图块,拼图块的大小将会根据行列数自动调整,然后随机打乱,玩家通过拖拽图块,最后复原原图。 &#x1f…

idea使用鼠标滚轮进行字体大小缩放

idea使用鼠标滚轮进行字体大小缩放 使用快捷键CtrlAltS进入到设置页面 在左上角搜索框输入“increase”,在左侧的Keymap中右击“Increase Fort Size”,点击“add mouse shortcut”,然后录入我们要设置的快捷键,比如我是点击ctrl鼠…

基于SpringBoot+Vue+Mysql的实验室低值易耗品管理系统

博主介绍: 大家好,本人精通Java、Python、C#、C、C编程语言,同时也熟练掌握微信小程序、Php和Android等技术,能够为大家提供全方位的技术支持和交流。 我有丰富的成品Java、Python、C#毕设项目经验,能够为学生提供各类…

AtCoder Beginner Contest 354 (ABCDEFG题)视频讲解

2024年5月19日补充G题。 A - Exponential Plant Problem Statement Takahashi is growing a plant. Its height at the time of germination is 0 c m 0\,\mathrm{cm} 0cm. Considering the day of germination as day 0 0 0, its height increases by 2 i c m 2^i\,\mat…

看一遍就理解:MVCC原理详解

介绍 MVCC(Multi-Version Concurrency Control,多版本并发控制)是一种用于实现数据库并发访问控制的机制。它允许多个用户同时读写同一数据项,从而提高了数据库在高并发环境下的性能和响应速度。以下是具体介绍: 基本…

Python代码注释的艺术与智慧

新书上架~👇全国包邮奥~ python实用小工具开发教程http://pythontoolsteach.com/3 欢迎关注我👆,收藏下次不迷路┗|`O′|┛ 嗷~~ 目录 一、引言:注释的必要性 二、注释的误区:不是越多越好 过度注释的问题…

服务器端口号怎么看?如何查看服务器端口号呢?有哪些需要注意的?

简单来说,端口号就是计算机与外界通讯交流的出口,每个端口都有不同的编号,也就是“端口号”。它们是唯一的,用于标识不同的服务和应用程序。通过端口号,我们可以知道哪些服务正在运行,以及如何与它们进行通…

【Linux系统编程】进程概念、进程排队、进程标识符、进程状态

目录 什么是进程? 浅谈进程排队 简述进程属性 进程属性之进程标识符 进程操作之进程创建 初识fork fork返回值 原理角度理解fork fork的应用 进程属性之进程状态 再谈进程排队 进程状态 运行状态 阻塞状态 挂起状态 Linux下的进程状态 “R”(运行状…

洗地机哪个牌子最好用?2024洗地机排行榜

随着人们生活水平的提升,智能清洁家电已经成为日常生活中的必需品。如今的清洁家电市场上,洗地机、吸尘器和扫地机器人等设备各有其独特的功能和优势。洗地机结合了扫、拖、吸和自清洁等多种功能,不仅可以处理干湿垃圾,还能高效清…

工业路由器在新能源数字化中的应用:重塑能源行业的未来

随着全球对可再生能源和能源效率的追求日益加强,新能源数字化已成为推动行业发展的关键因素。在这一变革的浪潮中,工业路由器以其卓越的性能和独特的功能,成为新能源数字化不可或缺的核心组件。本文将深入探讨工业路由器在新能源数字化中的应…