系统聚类的分类数确定——聚合系数法

 breast_cancer数据集分析——乳腺癌诊断

#读取乳腺癌数据
import pandas as pd
import numpy as np
from sklearn.datasets import load_breast_cancer
data = load_breast_cancer()
X = data.data
y = data.target

 

.. _breast_cancer_dataset:Breast cancer wisconsin (diagnostic) dataset
--------------------------------------------**Data Set Characteristics:**:Number of Instances: 569:Number of Attributes: 30 numeric, predictive attributes and the class:Attribute Information:- radius (mean of distances from center to points on the perimeter)- texture (standard deviation of gray-scale values)- perimeter- area- smoothness (local variation in radius lengths)- compactness (perimeter^2 / area - 1.0)- concavity (severity of concave portions of the contour)- concave points (number of concave portions of the contour)- symmetry- fractal dimension ("coastline approximation" - 1)The mean, standard error, and "worst" or largest (mean of the threeworst/largest values) of these features were computed for each image,resulting in 30 features.  For instance, field 0 is Mean Radius, field10 is Radius SE, field 20 is Worst Radius.- class:- WDBC-Malignant- WDBC-Benign:Summary Statistics:===================================== ====== ======Min    Max
===================================== ====== ======
radius (mean):                        6.981  28.11
texture (mean):                       9.71   39.28
perimeter (mean):                     43.79  188.5
area (mean):                          143.5  2501.0
smoothness (mean):                    0.053  0.163
compactness (mean):                   0.019  0.345
concavity (mean):                     0.0    0.427
concave points (mean):                0.0    0.201
symmetry (mean):                      0.106  0.304
fractal dimension (mean):             0.05   0.097
radius (standard error):              0.112  2.873
texture (standard error):             0.36   4.885
perimeter (standard error):           0.757  21.98
area (standard error):                6.802  542.2
smoothness (standard error):          0.002  0.031
compactness (standard error):         0.002  0.135
concavity (standard error):           0.0    0.396
concave points (standard error):      0.0    0.053
symmetry (standard error):            0.008  0.079
fractal dimension (standard error):   0.001  0.03
radius (worst):                       7.93   36.04
texture (worst):                      12.02  49.54
perimeter (worst):                    50.41  251.2
area (worst):                         185.2  4254.0
smoothness (worst):                   0.071  0.223
compactness (worst):                  0.027  1.058
concavity (worst):                    0.0    1.252
concave points (worst):               0.0    0.291
symmetry (worst):                     0.156  0.664
fractal dimension (worst):            0.055  0.208
===================================== ====== ======:Missing Attribute Values: None:Class Distribution: 212 - Malignant, 357 - Benign:Creator:  Dr. William H. Wolberg, W. Nick Street, Olvi L. Mangasarian:Donor: Nick Street:Date: November, 1995This is a copy of UCI ML Breast Cancer Wisconsin (Diagnostic) datasets.
https://goo.gl/U2Uwz2Features are computed from a digitized image of a fine needle
aspirate (FNA) of a breast mass.  They describe
characteristics of the cell nuclei present in the image.Separating plane described above was obtained using
Multisurface Method-Tree (MSM-T) [K. P. Bennett, "Decision Tree
Construction Via Linear Programming." Proceedings of the 4th
Midwest Artificial Intelligence and Cognitive Science Society,
pp. 97-101, 1992], a classification method which uses linear
programming to construct a decision tree.  Relevant features
were selected using an exhaustive search in the space of 1-4
features and 1-3 separating planes.The actual linear program used to obtain the separating plane
in the 3-dimensional space is that described in:
[K. P. Bennett and O. L. Mangasarian: "Robust Linear
Programming Discrimination of Two Linearly Inseparable Sets",
Optimization Methods and Software 1, 1992, 23-34].This database is also available through the UW CS ftp server:ftp ftp.cs.wisc.edu
cd math-prog/cpo-dataset/machine-learn/WDBC/.. dropdown:: References- W.N. Street, W.H. Wolberg and O.L. Mangasarian. Nuclear feature extractionfor breast tumor diagnosis. IS&T/SPIE 1993 International Symposium onElectronic Imaging: Science and Technology, volume 1905, pages 861-870,San Jose, CA, 1993.- O.L. Mangasarian, W.N. Street and W.H. Wolberg. Breast cancer diagnosis andprognosis via linear programming. Operations Research, 43(4), pages 570-577,July-August 1995.- W.H. Wolberg, W.N. Street, and O.L. Mangasarian. Machine learning techniquesto diagnose breast cancer from fine-needle aspirates. Cancer Letters 77 (1994)163-171.
.. 乳腺癌数据集:威斯康星州乳腺癌(诊断)数据集
--------------------------------------------**数据集特征:**:实例数: 569属性数 30 个数字、预测属性和类:属性信息:- 半径(从中心到周边各点距离的平均值)- 纹理(灰度值的标准偏差)- 周长- 面积- 平滑度(半径长度的局部变化)- 紧凑性(周长^2 / 面积 - 1.0)- 凹度(轮廓凹陷部分的严重程度)- 凹点(轮廓凹陷部分的数量)- 对称性- 分形维度(“海岸线近似值” - 1)平均值、标准误差和 “最差 ”或最大值(三个最差/最大值的平均值计算出每幅图像的这些特征的平均值、标准误差和 “最差 ”或最大值(三个最差/最大值的平均值)、得出 30 个特征值。 例如,字段 0 是平均半径,字段10 为半径 SE,字段 20 为最差半径。- 类别- WDBC-恶性- WDBC-良性:统计摘要:===================================== ====== ======最小值 最大值
===================================== ====== ======
半径(平均值):                        6.981 28.11
纹理(平均值):                         9.71 39.28
周长(平均值):                        43.79 188.5
面积(平均值):                        143.5 2501.0
平滑度(平均值):                      0.053 0.163
密实度(平均值):                      0.019 0.345
凹度(平均值):                          0.0 0.427
凹点(平均值):                          0.0 0.201
对称性(平均值):                      0.106 0.304
分形维度(平均值):                     0.05 0.097
半径(标准误差):                      0.112 2.873          
纹理(标准误差):                       0.36 4.885      
周长(标准误差):                      0.757 21.98   
面积(标准误差):                      6.802 542.2               
平滑度(标准误差):                    0.002 0.031
紧凑性(标准误差):                    0.002 0.135      
凹度(标准误差):                        0.0 0.396      
凹点(标准误差):                        0.0 0.053    
对称性(标准误差):                    0.008 0.079         
分形维度(标准误差):                  0.001 0.03  
半径(最差):                          7.93 36.04
纹理(最差):                         12.02 49.54
周长(最差):                         50.41 251.2
面积(最差):                         185.2 4254.0
平滑度(最差):                       0.071 0.223
紧凑性(最差):                       0.027 1.058
凹度(最差):                           0.0 1.252
凹点(最差):                           0.0 0.291
对称性(最差):                       0.156 0.664
分形维度(最差):                     0.055 0.208
===================================== ====== ======:缺失属性值: 无:类别分布:212 - 恶性,357 - 良性:Creator:  William H. Wolberg 博士、W. Nick Street、Olvi L. Mangasarian:Donor: 尼克-斯切特:Date: 1995 年 11 月这是 UCI ML 乳腺癌威斯康星(诊断)数据集的副本。
https://goo.gl/U2Uwz2根据乳腺肿块的细针穿刺(FNA)数字化图像计算特征。
乳腺肿块的细针抽吸(FNA)的数字化图像计算得出的。 它们描述了
图像中细胞核的特征。上述分离平面是通过
多面方法树(MSM-T)[K. P. Bennett,“通过线性规划构建决策树”。
通过线性规划构建决策树"。第四届
中西部人工智能与认知科学学会论文集》、
pp. 97-101, 1992],这是一种使用线性规划来构建决策树的分类方法。
编程来构建决策树的分类方法。 相关特征
在 1-4 个特征和 1-3 个分离平面的空间内进行穷举搜索,选出相关特征。
特征和 1-3 个分离平面的空间中进行穷举搜索,选出相关特征。实际用于获取三维空间中分离平面的线性规划
在三维空间中的分离平面的实际线性编程方法见以下文献:
[K. P. Bennett 和 O. L. Mangasarian:
"Robust Linear Robust Linear Programming Discrimination of Two Linearly Inseparable Sets"、
Optimization Methods and Software 1, 1992, 23-34]。该数据库也可通过华盛顿大学计算机科学与技术系的 ftp 服务器获取:ftp ftp.cs.wisc.edu
cd math-prog/cpo-dataset/machine-learn/WDBC/.下拉菜单:: 参考文献- W.N. Street、W.H. Wolberg 和 O.L. Mangasarian. 核特征提取用于乳腺肿瘤诊断。IS&T/SPIE 1993 国际电子成像研讨会。电子成像: 科学与技术》,第 1905 卷,第 861-870 页、加利福尼亚州圣何塞,1993 年。- O.L. Mangasarian、W.N. Street 和 W.H. Wolberg。乳腺癌诊断和通过线性规划的预后。运筹学》,43(4),第 570-577 页、1995年7月-8月。- W.H. Wolberg、W.N. Street 和 O.L. Mangasarian。机器学习技术从细针抽吸物诊断乳腺癌。癌症通讯 77 (1994)163-171.

威斯康星州乳腺癌数据集简介

from sklearn import datasets# 加载威斯康星州乳腺癌数据集
cancer_data = datasets.load_breast_cancer()# 特征数据
X = cancer_data.data# 目标变量
y = cancer_data.target


威斯康星州乳腺癌数据集是scikit-learn(sklearn)库中一个常用的内置数据集,用于分类任务。该数据集包含了从乳腺癌患者收集的肿瘤特征的测量值,以及相应的良性(benign)或恶性(malignant)标签。以下是对该数据集的简单介绍:

  • 数据集名称:威斯康星州乳腺癌数据集(Breast Cancer Wisconsin Dataset)

  • 数据集来源:数据集最初由威斯康星州医院的Dr. William H. Wolberg收集。

  • 数据集特征:数据集包含30个数值型特征,这些特征描述了乳腺肿瘤的不同测量值,如肿瘤的半径、纹理、对称性等。

  • 目标变量:数据集的目标变量是二分类的,代表肿瘤的良性(benign)或恶性(malignant)状态。良性表示肿瘤是非恶性的,恶性表示肿瘤是恶性的。

  • 样本数量:数据集包含569个样本,其中良性样本357个,恶性样本212个。

  • 数据集用途:该数据集被广泛用于分类任务、特征选择、模型评估等机器学习任务和实验中。

在使用sklearn库时,可以通过调用datasets.load_breast_cancer()函数加载威斯康星州乳腺癌数据集。加载后的数据集包含两个主要部分:data和target。data存储特征数据,target存储目标变量(标签)数据。

#读取乳腺癌数据
import pandas as pd
import numpy as np
from sklearn.datasets import load_breast_cancer
data = load_breast_cancer()
X = data.data
y = data.target
#显示数据集
print(data.DESCR)
#显示数据dataframe结果
df = pd.DataFrame(data.data, columns=data.feature_names)
df['target'] = data.target
df.head()
#写入csv文件
df.to_csv('breast_cancer.csv', index=False)

聚合系数法确定最优聚类数。

#使用聚合系数确定最佳聚类数
from sklearn.cluster import AgglomerativeClustering
from sklearn.metrics import silhouette_score
import matplotlib.pyplot as plt
sil = []
for i in range(2,11):model = AgglomerativeClustering(n_clusters=i)y_pred = model.fit_predict(X)sil.append(silhouette_score(X, y_pred))
plt.plot(range(2,11), sil)
plt.show()

 

谱系图绘制 


#根据最佳聚类数绘制树状图
from scipy.cluster.hierarchy import dendrogram, ward
model = AgglomerativeClustering(n_clusters=2)y_pred = model.fit_predict(X)
linkage_array = ward(X)
dendrogram(linkage_array)
ax = plt.gca()
ax.set_xlabel("Sample index")
ax.set_ylabel("Cluster distance")
bounds = ax.get_ybound()
ax.plot(bounds, [40, 40], '--', c='k')
ax.plot(bounds, [5, 5], '--', c='k')
plt.show()

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/60028.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Android 实现柱形图

在 Android 中实现柱状图,可以使用流行的图表库 MPAndroidChart,它支持多种类型的图表,包括柱状图、折线图、饼图等。下面是一个基本的柱状图实现步骤,具体分为以下几个部分: 1. 添加依赖 首先,你需要在 …

dolphin 配置data 从文件导入hive 实践(一)

datax 支持多种数据源的相互读写,作为开源软件,提供了离线采集功能,方便系统开发,过程中遇到诸多配置,需要开发者自己探索,免费同样有成本 配置模板 {"setting": {},"job": {"s…

AUTOSAR CP Ethernet State Manager(EthSM)规范的主要功能以及工作原理导读

AUTOSAR Ethernet State Manager(以下简称EthSM)规范的主要功能 AUTOSAR Ethernet State Manager(以下简称EthSM)规范的主要功能包括: 通信控制 网络模式管理:为通信管理器(ComM)提…

深度学习中的感受野:从基础概念到多层次特征提取

在深度学习,特别是计算机视觉任务中,感受野(Receptive Field)是一个至关重要的概念。它指的是在神经网络中某一层的神经元在输入图像上“看到”的区域大小。感受野的大小影响了网络能捕捉的特征层级,从而决定了它的特征…

VirtIO实现原理(1)

本文内容参考: VirtIO实现原理——PCI基础_virtio-pci-CSDN博客 QEMU源码全解析 —— virtio(3)_qemu virtio block bus-CSDN博客 特此致谢! 序言 本系列文章是笔者在看了网名为“享乐主”的VirtIO系列文章后决心要写的。这位博主的“VirtIO专栏”中博文的内容从技术层…

2024年双11激光投影仪哪个品牌最好?当贝新品震撼视觉的秘密武器

激光投影仪逐渐占据家庭娱乐生活的中心位置,以其超大屏优势与卓越的性能获得了众多消费者的青睐。双11购物狂欢节期间,正是入手一台高品质激光投影仪的好时机,各大厂商也纷纷推出了品牌新品,2024年双11激光投影仪怎么选&#xff1…

React的概念以及发展前景如何?

React是一个由Facebook开发的用于构建用户界面的的开源JavaScript库,它主要用于构建大型、动态的Web应用程序。React的主要特点是使用VirtualDOM(虚拟DOM)来优化性能,并使用声明式的编程方式来编写UI。 React的主要概念包括&#…

定位,堆叠,CSS精灵,过渡,光标(前端)

一.定位 1.作用 灵活改变盒子在网页中的位置 2.标签 position 3.属性值 (1)相对定位relative relative(相对定位)-----改变位置的参照物是原来的位置,挪动后原来的位置不托标,不被占用。 要配合top…

2024-11-01 - 统一身份认证 - OpenLdap - 中间件 - 流雨声

摘要 2024-11-01 周五 杭州 暴雨 调查问卷: https://www.wjx.cn/vm/exIBFDM.aspx# 2024年转瞬即逝,可是生活还在继续,这里有一项关于人工智能和项目管理对于效能关系的调研问卷,AI 对工作的作用和影响。问卷不采集个人信息,在此…

【363】基于springboot的高校竞赛管理系统

摘 要 如今社会上各行各业,都喜欢用自己行业的专属软件工作,互联网发展到这个时候,人们已经发现离不开了互联网。新技术的产生,往往能解决一些老技术的弊端问题。因为传统高校竞赛管理系统信息管理难度大,容错率低&am…

qt QTextFrame详解

1. 概述 QTextFrame是Qt框架中用于表示文本框架的类。它允许在QTextDocument中创建和管理具有特定边界和格式的文本区域。QTextFrame可以包含文本、图像、表格或其他QTextFrame,从而提供丰富的文本布局和排版功能。QTextFrame通常与QTextCursor结合使用&#xff0c…

【JWT】Asp.Net Core中JWT刷新Token解决方案

Asp.Net Core中JWT刷新Token解决方案 前言方案一:当我们操作某个需要token作为请求头的接口时,返回的数据错误error.response.status === 401,说明我们的token已经过期了。方案二:实现用户无感知的刷新token值,我们希望当响应返回的数据是401身份过期时,响应阻拦器自动帮我…

如何在Microsoft Edge中删除已保存的网站密码

目录 前言1. 如何进入Edge的密码管理界面1.1 打开Microsoft Edge的设置菜单1.2 进入个人资料设置1.3 进入密码管理 2. 在Edge中查看和删除已保存的密码2.1 查找需要删除的密码2.2 检查密码安全性2.3 删除特定网站的密码 3. 提升Edge密码管理的安全性3.1 启用Edge的多重身份验证…

[ Linux 命令基础 4 ] Linux 命令详解-文本处理命令

🍬 博主介绍 👨‍🎓 博主介绍:大家好,我是 _PowerShell ,很高兴认识大家~ ✨主攻领域:【渗透领域】【数据通信】 【通讯安全】 【web安全】【面试分析】 🎉点赞➕评论➕收藏 养成习…

Linux 实验:日志的备份与恢复 xfs文件系统

添加一个新的硬盘,创建硬盘分区sdc1 设置文件系统格式xfs,提示安装xfsprogs,如果安装失败,在后缀加上--fix-missing直到安装完成为止 mkdir创建空目录data,将sdc1挂载到data,data是根目录下新建的目录&…

【C#】使用.net9在C#中向现有对象动态添加属性

在 C# 中向现有对象动态添加属性并不像在 Python 或 JavaScript 中那样容易,因为 C# 是一种强类型语言。 但是,我们可以通过使用一些技术和库来实现这一点,例如扩展方法、字典等。本文将详细介绍如何在 C# 中实现这一点。ExpandoObject 方法 …

Python学习从0到1 day26 第三阶段 Spark ⑤ 搜索引擎日志分析

目录 一、搜索引擎日志分析 二、需求1:热门搜索时间段(小时精度)Top3 实现步骤 三、需求2:打印输出:热门搜索词Top3 实现步骤 四、需求3:打印输出:统计hadoop关键字在哪个时段被搜索最多 实现步骤 五、需求4:将数据转换为JSON格式…

#渗透测试#SRC漏洞挖掘#深入挖掘CSRF漏洞01

免责声明 本教程仅为合法的教学目的而准备,严禁用于任何形式的违法犯罪活动及其他商业行为,在使用本教程前,您应确保该行为符合当地的法律法规,继续阅读即表示您需自行承担所有操作的后果,如有异议,请立即停…

揭秘云计算 | 2、业务需求推动IT发展

揭秘云计算 | 1、云从哪里来?-CSDN博客https://blog.csdn.net/Ultipa/article/details/143430941?spm1001.2014.3001.5502 书接上文: 过去几十年间IT行业从大型主机过渡到客户端/服务器,再过渡到现如今的万物互联,IT可把控的资…

Grover算法——量子搜索算法

假设N个数据中符合条件的数据有M个,则量子搜索算法的复杂度为,远小于经典算法的复杂度。 黑箱 下面以N2为例,介绍黑箱如何标记符合条件的数据。N2意味着只有两个数据,可以用0和1来表示这两个数据,也就只需要一个量子比…