数据挖掘分析的一点进步分享

import pandas as pd
import matplotlib.pyplot as plt
import numpy as npdata = pd.read_csv('heros.csv',encoding="gbk")
data.head()

导入数据集  进行分析

df_data=data.copy()
df_data.describe()

df_data.info()

df_data.drop('英雄',axis=1,inplace=True)
df_data['最大攻速']=df_data['最大攻速'].apply(lambda str: str.replace('%',''))
from sklearn import preprocessingfor feature in ['初始法力','最高物攻']:le = preprocessing.LabelEncoder()le.fit(df_data[feature])df_data[feature] = le.transform(df_data[feature])
features = df_data.columns.values.tolist()
import seaborn as snssns.heatmap(df_data[features].corr(),linewidths=0.1, vmax=1.0, square=True,cmap=sns.color_palette('RdBu', n_colors=256),linecolor='white', annot=True)
plt.title('the feature of corr')
plt.show()

这里的代码其实还有一点不足 需要进行优化  这里给同学们进步的空间进行改成(提示:需要看看前面倒库有没有具体化)

df_data=df_data[features]
df_data.head()

from sklearn.preprocessing import StandardScaler
stas = StandardScaler()
df_data = stas.fit_transform(df_data)
df_data

from sklearn.cluster import KMeans #导入kmeans算法库
n_clusters=3  #设置聚类结果的类簇
kmean = KMeans(n_clusters) #设定算法为KMeans算法
df_data_kmeans=df_data.copy()
kmean.fit(df_data_kmeans)  #进行聚类算法训练
KMeans(algorithm='auto', copy_x=True, init='k-means++', max_iter=300,n_clusters=3, n_init=10, n_jobs=None, precompute_distances='auto',random_state=None, tol=0.0001, verbose=0)
labels = kmean.labels_  #输出每一样本的聚类的类簇标签
centers = kmean.cluster_centers_  #输出聚类的类簇中心点
print ('各类簇标签值:', labels)
print ('各类簇中心:', centers)

from scipy.spatial.distance import cdist
import numpy as np
#类簇的数量2到9
clusters = range(2, 10) 
#距离函数
distances_sum = []for k in clusters:kmeans_model = KMeans(n_clusters = k).fit(df_data_kmeans) #对不同取值k进行训练#计算各对象离各类簇中心的欧氏距离,生成距离表distances_point = cdist(df_data_kmeans, kmeans_model.cluster_centers_, 'euclidean')#提取每个对象到其类簇中心的距离(该距离最短,所以用min函数),并相加。distances_cluster = sum(np.min(distances_point,axis=1))#依次存入range(2, 10)的距离结果distances_sum.append(distances_cluster)  
plt.plot(clusters, distances_sum, 'bx-')  #画出不同聚类结果下的距离总和
# 设置坐标轴的label
plt.xlabel('k')  
plt.ylabel('distances')
plt.show() 

from sklearn.cluster import KMeans #导入kmeans算法库
n_clusters=5  #设置聚类结果的类簇
kmean = KMeans(n_clusters) #设定算法为KMeans算法
df_data_kmeans=df_data.copy()
kmean.fit(df_data_kmeans)  #进行聚类算法训练
labels = kmean.labels_  #输出每一样本的聚类的类簇标签
centers = kmean.cluster_centers_  #输出聚类的类簇中心点
print ('各类簇标签值:', labels)
print ('各类簇中心:', centers)

kmeans_result=data.copy()
#将分组结果输出到原始数据集中
kmeans_result.insert(0,'分组',labels)kmeans_result

"""根据轮廓系数计算模型得分"""
from sklearn.metrics import silhouette_score
score=silhouette_score(df_data_kmeans,labels,metric='euclidean')
score
0.2939377309323035
from sklearn import metrics
y_pred=kmean.predict(df_data_kmeans)
metrics.calinski_harabasz_score(df_data_kmeans,y_pred)
26.680175815073525
from sklearn.cluster import AgglomerativeClustering #导入凝聚型算法库
n_clusters=5  #设置聚类结果的类簇#设定算法为AGNES算法,距离度量为最小距离
ward = AgglomerativeClustering(n_clusters, linkage='ward')
df_data_ward=df_data.copy()
ward.fit(df_data_ward)  #进行聚类算法训练

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/25022.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

排查服务器cpu运行过高

ps -ef|grep java 查看所有运行的jar包 kill -9 进程号 杀死进程 nohup java -jar systemManagement-1.0-SNAPSHOT.jar > systemManagement.log 2>&1 & 运行jar包并把它挂在后台,而且生成log文件 排查服务器cpu运行过高 jps -lm 查看jar包是否真的…

饥荒云服务器卡顿情况如何解决

随着网络游戏的普及,云服务器逐渐成为游戏开发者和玩家们的首选。然而,在使用饥荒云服务器时,有时会遇到卡顿的问题,这给玩家带来了困扰。本文将探讨饥荒云服务器卡顿的原因,并提供一些可能的解决方法。 卡顿产生的原因…

实践分享:如何用小程序里的小组件做应用开发?

随着移动互联网的快速发展,小程序等轻量级应用平台日益成为用户获取信息和服务的重要渠道。而小组件也在其中扮演了至关重要的角色,不仅能够提升用户的交互体验,还能帮助开发者高效地构建功能丰富、界面美观的小程序。 本文中,我们…

构建第一个ArkTS应用之@卡片使用动效能力

ArkTS卡片开放了使用动画效果的能力,支持显式动画、属性动画、组件内转场能力。需要注意的是,ArkTS卡片使用动画效果时具有以下限制: 表1 动效参数限制 名称 参数说明 限制描述 duration 动画播放时长 限制最长的动效播放时长为1秒&…

使用 Java 操作 Redis 数据类型的详解指南

使用 Java 操作 Redis 数据类型的详解指南 在这篇指南中,我们将详细介绍如何使用 Java 通过 Jedis 客户端操作 Redis 的各种数据类型。每个示例都展示了如何连接到 Redis 并使用 Jedis 客户端执行各种操作,涵盖了字符串、列表、集合、哈希、有序集合、位…

深入理解交叉熵损失 CrossEntropyLoss - 最大似然估计

深入理解交叉熵损失 CrossEntropyLoss - 最大似然估计 flyfish 下面有详细的例子和公式的说明。 最大似然估计的概念 最大似然估计是一种统计方法,用来估计模型参数,使得在这些参数下观测到的数据出现的概率(即似然)最大。 具…

MySQL-7、连接的原理

前言 前面介绍了MySQL执行查询语句其中访问方法,包括const、ref、ref_or_null、range、index、all、index_merge(索引合并)。索引合并又分三种情况,Intersection(交集)索引合并、Union(并集)索引合并、Sort-Union索引合并。 &…

JavaWeb2-Vue

Vue 前端框架,免除原生JS中的DOM操作简化书写 (以前学过又忘了,现在才知道原来vue是前端的) 基于MVVM思想(model-view -viewModel)实现数据双向绑定 model是数据模型 view负责数据展示 即DOM 中间这个负责…

工具方法 - 如何设定自己成为什么样的人

设定自己应该成为一个什么样的人是一个个人成长和自我发现的过程。以下是一些步骤和建议,可能会对你有帮助: 1. 自我反思 了解自己: 花时间思考你的兴趣、价值观、优点和缺点。问问自己: 我喜欢做什么?我擅长什么&a…

堆排序讲解

前言 在讲堆的删除时,我们发现一步一步删除堆顶的数据,排列起来呈现出排序的规律,所以本节小编将带领大家进一步理解堆排序。 1.堆排序概念 那么什么是堆排序? 堆排序(Heap Sort)是一种基于堆数据结构的排…

GPT-4o的崛起:人工智能新纪元的开端

如何评价GPT-4o? GPT-4o的崛起:人工智能新纪元的开端 随着人工智能技术的飞速发展,GPT-4o的发布再次引起了广泛关注。作为OpenAI推出的最新一代语言模型,GPT-4o不仅在技术能力上取得了重大突破,还在应用场景和用户体验上带来了…

网络学了点socket,写个聊天室,还得改进

目录 第一版: common 服务端: 客户端 第一版问题总结: 第二版 服务端: 客户端: 改进: Windows客户端 一些小问题 还可以进行的改进 这篇文章我就先不讲网络基础的东西了,我讲讲在我进行制作我这个拉跨聊天室中遇到的问题,并写了三版代码. 第一版: common #pragm…

SpringBoot-集成TOTP

TOTP验证码提供了一种高效且安全的身份验证方法。它不仅减少了依赖短信或其他通信方式带来的成本和延时,还通过不断变换的密码增加了破解的难度。未来,随着技术的进步和对安全性要求的提高,TOTP及其衍生技术将继续发展并被更广泛地应用。TOTP…

在CSS中,可以使用`float`属性来设置元素浮动

在CSS中,可以使用float属性来设置元素浮动。float属性有三个值:left、right和none。 float: left;:将元素浮动到左侧。float: right;:将元素浮动到右侧。float: none;:取消元素的浮动(默认值)。…

代码随想录算法训练营第三十一天| 455. 分发饼干、376. 摆动序列、53. 最大子数组和

[LeetCode] 455. 分发饼干 [LeetCode] 455. 分发饼干 文章解释 [LeetCode] 455. 分发饼干 视频解释 题目: 假设你是一位很棒的家长,想要给你的孩子们一些小饼干。但是,每个孩子最多只能给一块饼干。 对每个孩子 i,都有一个胃口值 g[i]&#x…

多模态模型是什么意思(国内外的AI多模态有哪些)

在人工智能和机器学习的领域,我们经常会遇到一些专业术语,这些术语可能会让初学者感到困惑。其中,"多模态模型"就是这样一个概念。 什么是AI多模态。它是什么意思呢? 那么,多模态模型是什么意思呢&#xff1…

【Python】数据处理:SQLite操作

使用 Python 与 SQLite 进行交互非常方便。SQLite 是一个轻量级的关系数据库,Python 标准库中包含一个名为 sqlite3 的模块,可以直接使用。 import sqlite3数据库连接和管理 连接到 SQLite 数据库。如果数据库文件不存在,则创建一个新数据库…

大数据如何更好地助力乡村振兴战略的实施?

大数据可以在乡村振兴战略的实施中发挥重要的作用。以下是一些大数据如何更好地助力乡村振兴战略实施的方法: 优化资源配置:通过大数据分析,可以了解到乡村的资源分布和利用情况,帮助政府和相关机构更好地进行资源调配和规划&…

Web前端Git安装:一步步引导你走进版本控制的奇妙世界

Web前端Git安装:一步步引导你走进版本控制的奇妙世界 在Web前端开发的广阔天地中,Git作为一款强大的版本控制工具,扮演着举足轻重的角色。本文将引导你逐步完成Git的安装过程,并深入探讨其在前端开发中的重要作用。我们将从四个方…

SystemVerilog Interface Class的妙用

前言 Interface Class是在SystemVerilog 2012版本中引入的,但目前在验证中几乎很少采用,大多数验证工程师要么不知道它,要么没有看到使用它的任何好处,这使得Interface Class成为一个未被充分使用和不被重视的特性。本文将举两个…