【Python机器学习】将PCA用于cancer数据集并可视化

PCA最常见的应用之一就是将高维数据集可视化。一般对于有两个以上特征的数据,很难绘制散点图,。对于Iris(鸢尾花)数据集,我们可以创建散点矩阵图,通过展示特征所有可能的两两组合来展示数据的局部图像。

不过类似cancer数据集,包含30个特征,这就导致需要绘制30*14=420张散点图。

不过还可以用一种简单的可视化方法——对每个特征分别计算两个类别的直方图:

import mglearn.plots
import numpy as np
from sklearn.datasets import make_blobs,load_breast_cancer
import matplotlib.pyplot as pltcancer=load_breast_cancer()
fig,axes=plt.subplots(15,2,figsize=(10,20))
malignant=cancer.data[cancer.target==0]
benign=cancer.data[cancer.target==1]ax=axes.ravel()for i in range(30):_,bins=np.histogram(cancer.data[:,i],bins=50)ax[i].hist(malignant[:,i],bins=bins,color=mglearn.cm3(0),alpha=0.5)ax[i].hist(benign[:,i],bins=bins,color=mglearn.cm3(2),alpha=0.5)ax[i].set_title(cancer.feature_names[i])ax[i].set_yticks(())ax[0].set_xlabel('Feature magnitude')
ax[0].set_ylabel('Frequency')
ax[0].legend(['malignant','benign'],loc='best')
fig.tight_layout()
plt.show()

这里为每个特征创建了一个直方图,计算具有某一特征的数据点在特点范围内(bin)的出现频率。

每张图都包含两个直方图,一个是良性类别的所有点(蓝色),一个是恶性类别的所有点(红色)。这样可以了解每个特征在两个类别中的分布情况,也可以猜测哪个特征能够很好的区分良性样本和恶性样本。

但是,这种图无法展示变量之间的相互作用以及这种相互作用与类别之间的关系。利用PCA,我们可以获取到主要的作用,并得到稍微完整的图像。我们可以找到前两个主成分,并在这个新的二维空间中用散点图将数据可视化:


cancer=load_breast_cancer()
scaler=StandardScaler()
scaler.fit(cancer.data)
X_scaler=scaler.transform(cancer.data)

将PCA对象实例化,调用fit方法找到主成分,然后调用transform来旋转并降维。默认情况下,PCA仅旋转并移动数据,但保留所有的主成分。为了降低数据的维度,我们需要在创建PCA对象时指定想要保留的主成分个数。


pca=PCA(n_components=2)
pca.fit(X_scaler)X_pca=pca.transform(X_scaler)
print('Original shape:{}'.format(str(X_scaler.shape)))
print('Reduced shape:{}'.format(str(X_pca.shape)))

现在对前两个主成分作图:


plt.figure(figsize=(8,8))
mglearn.discrete_scatter(X_pca[:,0],X_pca[:,1],cancer.target)
plt.legend(cancer.target_names,loc='best')
plt.gca().set_aspect('equal')
plt.xlabel('first')
plt.ylabel('second')
plt.show()

需要注意的是,PCA是一种无监督方法,在寻找旋转方向时没有用到任何类别信息。它只是观察数据中的相关性。

对于这里的散点图,我们绘制了第一主成分和第二主成分的关系,然后利用类别信息对数据点进行着色。在这个二维空间中的两个类别被很好的分离。这让我们相信,即使是线性分类器也可以在区分这个两个类别时表现的相当不错。

PCA的一个缺点是:通常不容易对图中的两个轴进行解释。主成分对应于原始数据中的方向,所以它们是原始特征的拟合。但这些组合往往非常复杂,这一点我们很快就会看到。

在拟合过程中,主成分被保存在PCA对象的components_属性中:


print('PCA components shape:{}'.format(pca.components_.shape))

components_中的每一行对应一个主成分,它们按重要性排序。列对应于PCA的原始特征属性,components_的内容:

print('PCA components:{}'.format(pca.components_))

还可以用热图将系数可视化,这可能更容易理解:


plt.matshow(pca.components_,cmap='viridis')
plt.yticks([0,1],['first','second'])
plt.colorbar()
plt.xticks(range(len(cancer.feature_names)),cancer.feature_names,rotation=60,ha='left')plt.xlabel('feature')
plt.ylabel('Principal components')
plt.show()

可以看到,在第一个主成分中,所有特征的符号相同(均为正)。这意味着在所有特征之间存在普遍的相关性,如果一个测量值很大的话,其他的测量值可能也较大。第二个主成分的符号有正有负,而且两个主成分都包含所有30个特征。这种所有特征的混合使得解释上图中的坐标轴非常困难。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/849692.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

MI-SegNet: 基于互信息的超越领域泛化的超声图像分割

文章目录 MI-SegNet: Mutual Information-Based US Segmentation for Unseen Domain Generalization摘要方法实验结果 MI-SegNet: Mutual Information-Based US Segmentation for Unseen Domain Generalization 摘要 针对医学图像分割在不同领域间泛化能力有限的问题,特别是针…

Docker搭建redis-cluster集群

1. 前期准备 1.1 拉redis镜像 docker search redis docker pull redis1. 2 创建网卡 docker network create myredis --subnet 172.28.0.0/16#查看创建的网卡 docker network inspect myredisdocker network rm myredis #删除网卡命令 多个中间 空格隔开 docker network --h…

Python中的Paramiko与FTP文件夹及文件检测技巧

哈喽,大家好,我是木头左! Python代码的魅力与实用价值 在当今数字化时代,编程已成为一种不可或缺的技能。Python作为一种简洁、易读且功能强大的编程语言,受到了全球开发者的喜爱。它不仅适用于初学者入门&#xff0c…

配置 jDK 和 Android环境

目录 一、配置jDK 1. 安装 JDK 2. JDK 环境配置 3. JDK的配置验证 二、配置 Android环境 1、下载 2、SDK配置 3、配置Android环境 一、配置jDK 1. 安装 JDK 安装链接:Java Downloads | Oracle 我安装的是 .zip ,直接在指定的文件夹下解压就好。…

上位机快速开发框架

右上角向下按钮 -> 后台配置 系统菜单 角色管理 分配权限 用户管理 设备配置 通道管理 首页界面设计 设备1配置 带反馈按钮,如:用户按键00105,PLC反馈状态00106 设备2配置 参数说明: TagName_Main:主要信息&#…

2024.06.07【读书笔记】丨生物信息学与功能基因组学(第十二章 全基因组和系统发育树 第二部分)【AI测试版】

目录 地球上生命形式的生物发展史 系统发生树的分子序列基础 生物信息学在系统分类学中的角色 基因组测序计划 讨论 总结 摘要 第二部分详细讨论了地球生命形式的演化历程,系统发生树的分子基础,生物信息学在现代系统分类学中的应用,…

RabbitMQ消息的发布确认机制详解

RabbitMQ发布确认机制确保消息从生产者成功传输到交换机和队列,提高系统可靠性。在Spring Boot项目中,通过配置publisher-confirm-type和publisher-returns,启用发布确认和消息返回机制。配置RabbitTemplate的确认回调和返回回调,…

阿里 Qwen2 模型开源,教你如何将 Qwen2 扩展到百万级上下文

本次开源的 Qwen2 模型包括 5 个尺寸,分别是 0.5B、1.5B、7B、72B、57B,其中 57B 的属于 MoE 模型(激活参数 14B),其余为 Dense 模型,本篇文章会快速介绍下各个尺寸模型的情况,然后重点介绍下如…

【TB作品】MSP430G2553单片机,使用595数码管制作的秒表

作品功能 这个项目是一个使用单片机和HC595芯片驱动数码管显示的秒表。秒表可以记录时间,以秒和百分之一秒为单位,并通过按键进行启动和暂停操作。这个简单但功能完整的秒表项目展示了如何使用串行输入/输出移位寄存器HC595和MSP430单片机来驱动数码管显…

20212416 2023-2024-2 《网络与系统攻防技术》实验八实验报告

Web安全实践 1.实验内容2.实验过程2.1 Web前端HTML2.1.1 正常安装、启停Apache2.1.2 编写一个含有表单的HTML2.1.2.1 基础知识2.1.2.2 实践 2.2 Web前端javascipt2.2.1 基础知识2.2.2 实践 2.3 Web后端:MySQL基础2.3.1 正常安装、启动MySQL2.3.2 创建用户、修改密码…

torch.cat 与 torch.concat函数

文章目录 区别torch.cat介绍作用参数使用实例关于参数dim为None的使用 区别 先说结论:没有区别在功能、用法以及作用上,concat函数就是cat函数的别名(官方就是这样说的)。下面截图为证:   因此接下来就主要是介绍 to…

乐鑫AT固件ESP32-WROOM-32-AT-V3.2.0.0发送MQTT命令连接失败问题分析与解决

模块通过串口助手发送MQTT的所有连接命令都是正常的 配置MQTT: ATMQTTUSERCFG0,1,"publisher","bCDEo8NukvSOBfIXUj8","",0,0,"" 连接MQTT: ATMQTTCONN0,"52.195.11.47",1883,1 通过STM32发送ATMQTTUSERCFG命令返回OK,…

在内网中反向代理清华镜像

在内网环境中,服务器经常需要访问外部资源,如开源软件的镜像站。然而,直接访问可能受限于多种因素,如网络策略或地理位置。此时,设置一个反向代理服务器可以极大地方便内网中的服务器访问和更新软件包。本文将介绍如何…

<Python><PyQt5>基于python使用PyQt5编写UI时,如何在单独的文件里构建菜单项然后调用?

前言 本文纯作为记录,但如果恰好有相同需要的朋友,也可以看看。本文实现的是,使用PyQt5时,如果需要添加menu项,但不想把所有元素都写在一个主程序文件中,部件太多的话,程序臃肿,因此…

[NOVATEK] NT96580行车记录仪功能学习笔记

一、u-Boot升级灯 运行u-Boot程序时LED灯闪烁,找到运行过程中一直在运行的函数在里面进行LED引脚电平的翻转 宏定义 Z:\SunFan\AHD580\pip\na51055_PIP\BSP\u-boot\include\configs\nvt-na51055-evb.h Z:\SunFan\AHD580\pip\na51055_PIP\BSP\u-boot\drivers\mtd\nvt_flash_…

MATLAB format

在MATLAB中,format 是一个函数,用于控制命令窗口中数值的显示格式。这个函数可以设置数值的精度、显示的位数等。以下是一些常用的 format 命令: format long:以默认的长格式显示数值,通常显示15位有效数字。format s…

什么是专业神秘顾客公司?(深圳神秘顾客公司)

专业神秘顾客公司是指那些拥有经过严格培训的专业“神秘顾客”,并为客户提供神秘顾客调查业务的公司。以下是关于专业神秘顾客公司的详细介绍: 一、定义与业务 专业神秘顾客公司,通常称为Mystery Shopper Company,其核心业务是为…

【Linux】深入解析动静态库:原理、制作、使用与动态链接机制

文章目录 前言:1. 什么是动静态库2. 动静态库的制作和使用3. 动态库的查找问题4. 理解动态库的加载4.1. 站在系统的角度理解4.2. 编址、可执行程序4.3. 动态库动态链接和加载问题 总结: 前言: 在软件开发中,动静态库是两种重要的…

11.盛水最多的容器

给定一个长度为 n 的整数数组 height 。有 n 条垂线,第 i 条线的两个端点是 (i, 0) 和 (i, height[i]) 。 找出其中的两条线,使得它们与 x 轴共同构成的容器可以容纳最多的水。 返回容器可以储存的最大水量。 说明:你不能倾斜容器。 示例 1&a…

Python基础总结之functools.partial

Python基础总结之functools.partial 在日常编程中,我们经常会遇到这样的情况:需要调用一个函数,但希望它的某些参数被预先设置好,而不是每次调用时都手动传递这些参数。Python 的 functools.partial 提供了一种优雅的方式来实现这…