机器学习:基于Sklearn、XGBoost框架,使用XGBClassifier、支持向量分类器和决策树分类器预测乳腺癌是良性还是恶性

在这里插入图片描述

前言

系列专栏:机器学习:高级应用与实践【项目实战100+】【2024】✨︎
在本专栏中不仅包含一些适合初学者的最新机器学习项目,每个项目都处理一组不同的问题,包括监督和无监督学习、分类、回归和聚类,而且涉及创建深度学习模型、处理非结构化数据以及指导复杂的模型,如卷积神经网络、门控递归单元、大型语言模型和强化学习模型

本文旨在实现一个强大的机器学习模型,该模型可以预测乳腺癌患者是良性肿瘤还是恶性肿瘤。

目录

  • 1. 相关库和数据集
    • 1.1 相关库介绍
    • 1.2 数据集介绍
    • 1.3 数据清理
  • 2. 数据探索分析(可视化)
    • 2.1 特征 features_mean
    • 2.2 特征 features_se
    • 2.3 特征 features_worst
  • 3. 数据建模(XGBClassifier、SVC、DecisionTreeClassifier)
    • 3.1 数据准备(拆分为训练集和测试集)
    • 3.2 模型建立
    • 3.3 模型评估
  • 4. 总结

1. 相关库和数据集

1.1 相关库介绍

XGBClassifier、支持向量分类器和决策树分类器用于根据给定数据集中的属性预测给定患者是患有恶性肿瘤还是良性肿瘤。

  • Pandas – 该库有助于以 2D 数组格式加载数据框,并具有多种功能,可一次性执行分析任务。
  • Numpy – Numpy 数组速度非常快,可以在很短的时间内执行大型计算。
  • Matplotlib/Seaborn – 此库用于绘制可视化效果。
  • Sklearn – 包含多个库,这些库具有预实现的功能,用于执行从数据预处理到模型开发和评估的任务。
  • XGBoost – 包含eXtreme Gradient Boosting 机器学习算法,能帮助我们实现高精度预测。
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as snsfrom sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler, MinMaxScalerfrom sklearn.svm import SVC
from xgboost import XGBClassifier
from sklearn.tree import DecisionTreeClassifier
from sklearn import metrics
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix, ConfusionMatrixDisplayimport warnings
warnings.filterwarnings('ignore')

1.2 数据集介绍

我们将在此处使用的UCI机器学习存储库中的数据集,它是患有恶性和良性肿瘤的乳腺癌患者的数据集。这些列中的值是其他一些诊断的一部分,这些诊断通常用于捕获健康人与受影响的人之间的差异。现在,让我们将数据集加载到Pandas的数据框中。

data = pd.read_table('wdbc.data', sep=',', header=None, names=['id', 'diagnosis', 'radius_mean', 'texture_mean', 'perimeter_mean','area_mean', 'smoothness_mean', 'compactness_mean', 'concavity_mean','concave points_mean', 'symmetry_mean', 'fractal_dimension_mean','radius_se', 'texture_se', 'perimeter_se', 'area_se', 'smoothness_se','compactness_se', 'concavity_se', 'concave points_se', 'symmetry_se','fractal_dimension_se', 'radius_worst', 'texture_worst','perimeter_worst', 'area_worst', 'smoothness_worst','compactness_worst', 'concavity_worst', 'concave points_worst','symmetry_worst', 'fractal_dimension_worst', 'Unnamed: 32'])
data.head()

在这里插入图片描述

由于数据集的维度比较高。让我们检查数据集的哪一列包含哪种类型的数据。

df.info()

输出

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 569 entries, 0 to 568
Data columns (total 33 columns):#   Column                   Non-Null Count  Dtype  
---  ------                   --------------  -----  0   id                       569 non-null    int64  1   diagnosis                569 non-null    object 2   radius_mean              569 non-null    float643   texture_mean             569 non-null    float644   perimeter_mean           569 non-null    float645   area_mean                569 non-null    float646   smoothness_mean          569 non-null    float647   compactness_mean         569 non-null    float648   concavity_mean           569 non-null    float649   concave points_mean      569 non-null    float6410  symmetry_mean            569 non-null    float6411  fractal_dimension_mean   569 non-null    float6412  radius_se                569 non-null    float6413  texture_se               569 non-null    float6414  perimeter_se             569 non-null    float6415  area_se                  569 non-null    float6416  smoothness_se            569 non-null    float6417  compactness_se           569 non-null    float6418  concavity_se             569 non-null    float6419  concave points_se        569 non-null    float6420  symmetry_se              569 non-null    float6421  fractal_dimension_se     569 non-null    float6422  radius_worst             569 non-null    float6423  texture_worst            569 non-null    float6424  perimeter_worst          569 non-null    float6425  area_worst               569 non-null    float6426  smoothness_worst         569 non-null    float6427  compactness_worst        569 non-null    float6428  concavity_worst          569 non-null    float6429  concave points_worst     569 non-null    float6430  symmetry_worst           569 non-null    float6431  fractal_dimension_worst  569 non-null    float6432  Unnamed: 32              0 non-null      float64
dtypes: float64(31), int64(1), object(1)
memory usage: 146.8+ KB.4 MB

根据上述有关每列数据的信息,我们可以观察到没有空值。

data.diagnosis.unique() 

输出

array(['M', 'B'], dtype=object)

1.3 数据清理

从主要来源获得的数据被称为原始数据,需要大量的预处理,然后才能从中得出任何结论或对其进行一些建模。这些预处理步骤称为数据清理,它包括异常值删除、空值插补以及删除数据输入中的任何类型的差异。我们将删除列 ‘id’ 和 ‘Unnamed: 32’,因为它们在预测中没有作用

features = data.drop(['Unnamed: 32', 'id', 'diagnosis'], axis = 1) # diagnosis为target列 
data.diagnosis = [1 if each == "M" else 0 for each in data.diagnosis]
target = data['diagnosis']

2. 数据探索分析(可视化)

这些特征如果要探索其相关性,可以借助seaborn可视化工具进行探索。在下面的代码块中,实现了一个热力图表,可以大略看出数据之间的高度相关特征。

fig = plt.figure(figsize=(20,20), dpi=250)
sns.heatmap(features.corr(), cmap="Blues", annot=True)

输出
在这里插入图片描述

2.1 特征 features_mean

fig = plt.figure(figsize=(10,5), dpi=250)
sns.heatmap(data[features_mean].corr(), cmap=sns.cubehelix_palette(dark=.20, light=.95, as_cmap=True), annot=True)

输出

在这里插入图片描述

2.2 特征 features_se

接下来,让我们检查一下数据集features_se的相关性。

fig = plt.figure(figsize=(10,5), dpi=250)
sns.heatmap(data[features_se].corr(), cmap=sns.cubehelix_palette(dark=.20, light=.95, as_cmap=True), annot=True)

输出
在这里插入图片描述

2.3 特征 features_worst

接下来,检查一下数据集features_worst的相关性。
在这里插入图片描述

3. 数据建模(XGBClassifier、SVC、DecisionTreeClassifier)

3.1 数据准备(拆分为训练集和测试集)

X_train, X_val,\Y_train, Y_val = train_test_split(features, target,test_size=0.2,random_state=10)
X_train.shape, X_val.shape

输出

((455, 30), (114, 30))

3.2 模型建立

models = [XGBClassifier(), SVC(kernel='rbf'), DecisionTreeClassifier(random_state=42)]# 循环遍历每个分类器
for i in range(len(models)):# 训练分类器models[i].fit(X_train, Y_train)# 在验证集上进行预测val_preds = models[i].predict(X_val)# 计算混淆矩阵#cm = confusion_matrix(Y_val, Y_pred)# 显示混淆矩阵metrics.ConfusionMatrixDisplay.from_estimator(models[i], X_val, Y_val, cmap=sns.cubehelix_palette(dark=.20, light=.95, as_cmap=True))plt.title(f'Confusion Matrix for {models[i].__class__.__name__}')plt.show()print(f'{models[i]} : ')print('Validation Accuracy : ', accuracy_score(Y_val, val_preds))print(metrics.classification_report(Y_val, models[i].predict(X_val)))

3.3 模型评估

让我们使用XGBClassifier、SVC、DecisionTreeClassifier为验证数据绘制混淆矩阵。
在这里插入图片描述

4. 总结

从上述准确度来看,我们可以说XGBClassifier在验证数据上的准确率表现更好,高达97%。

完整源码:机器学习:基于Sklearn、XGBoost框架,使用XGBClassifier、支持向量分类器和决策树分类器预测乳腺癌是良性还是恶性【源码】✨︎

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/4722.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

大数据组件之Storm简介

大数据组件之Storm简介 摘要&#xff1a; Apache Storm是一个开源的实时大数据处理系统&#xff0c;由Twitter公司开发并捐赠给Apache基金会。它以其高吞吐量、可扩展性和容错性在实时数据处理领域占据重要地位。本文将对Apache Storm进行全面介绍&#xff0c;包括其架构、特点…

MySQL:飞腾2000+Centos7.6 aarch64 部署MySQL8.0.36

目录 1.硬件环境 2.MySQL选择 Bundle版本【全部文件】​编辑 3.下载并安装 4.安装完成后检查mysql 5.初始化MySQL 6.那就问了&#xff0c;都初始化了啥&#xff1f; 7.尝试启动MySQL 8.给mysql文件授权 9.再次尝试启动正常 10.mysql初始化目录出现了mysql.sock 11.找…

Android SQLite中的UNIQUE constraint failed错误

报错信息&#xff1a; UNIQUE constraint failed SQLite中的UNIQUE constraint failed错误&#xff0c;表明尝试插入或更新数据库时出现了违反唯一性约束的情况。唯一性约束确保在特定列或列集合中的值在表中是唯一的&#xff0c;即不能有重复的值。当你尝试插入或更新已存在于…

为什么我的Mac运行速度变慢 mac运行速度慢怎么办 如何使用CleanMyMac X修复它

近些年伴随着苹果生态的蓬勃发展&#xff0c;越来越多的用户开始尝试接触Mac电脑。然而很多人上手Mac后会发现&#xff0c;它的使用逻辑与Windows存在很多不同&#xff0c;而且随着使用时间的增加&#xff0c;一些奇奇怪怪的文件也会占据有限的磁盘空间&#xff0c;进而影响使用…

android 分区存储(沙盒存储)适配总结

目录 一、分区存储概念 1.外部存储分类 2.分区存储如何影响文件访问 二、分区适配方案 1. 应用分区存储的文件访问规定 (1).应用专属目录--私有目录 (2).共享目录文件--公有目录 2.MediaStore API介绍 3.Storage Access Framework介绍 三、所有文件访问权限 四、总结…

C、C++的联合体:union关键字含义

C、C的联合体&#xff1a;union关键字含义 **联合体&#xff08;Union&#xff09;**在C语言中是一种特殊的数据结构&#xff0c;它允许在相同的内存位置存储不同的数据类型。但是&#xff0c;在任何时候&#xff0c;联合体中只有一个成员是有效的&#xff0c;因为所有的成员都…

http请求内容

Cookie 可以包含多个键值对&#xff0c;因此它不仅限于单个值。一个 Cookie 可以携带多个属性&#xff0c;每个属性由键值对表示 Set-Cookie: namevalue; expiresSat, 30 Apr 2022 23:59:59 GMT; path/; domain.example.com; secure; HttpOnly 在HTTP协议中&#xff0c;请求头之…

【项目学习01_2024.04.27_Day02】

学习笔记 3 课程查询3.4 生成接口文档ApiOperation("课程查询接口") 和Api注解的区别Api(value "课程信息编辑接口",tags "课程信息编辑接口")其中的value和tags有什么用呢Swaager的常用注解如下&#xff1a;3.5 开发持久层3.5.1 生成mapper3.…

从NoSQL到NewSQL——10年代大数据浪潮下的技术革新

引言 在数字化浪潮的推动下&#xff0c;数据库技术已成为支撑数字经济的坚实基石。腾讯云 TVP《技术指针》联合《明说三人行》特别策划的直播系列——【中国数据库前世今生】&#xff0c;我们将通过五期直播&#xff0c;带您穿越五个十年&#xff0c;深入探讨每个时代的数据库演…

如何获得理想的词向量表示?

为了获得理想的词向量表示以支持下游任务&#xff0c;词汇的嵌入向量通常会经过一系列的处理和优化步骤。以下是一些关键的操作&#xff1a; 初始化&#xff1a;嵌入向量最初是随机初始化的&#xff0c;但一些方法会使用更智能的初始化策略&#xff0c;比如通过预训练的嵌入或者…

8_手眼标定总结_auboi5机械臂与海康平面相机

经过不断地学习与调试&#xff0c;不断地学习网络上其他同志分享的资料&#xff0c;opencv手眼标定迎来了阶段性结束。实际测试结果在机械臂坐标系中X方向差5mm左右。 代码参考《https://blog.csdn.net/wanggao_1990/article/details/81435660》 注意事项&#xff1a; ①标定…

软考高级架构师:嵌入式操作系统微内核例题解析

1 题目和解析 1.1 题目 以下关于操作系统微内核架构特征的说法&#xff0c;不正确的是&#xff08;&#xff09;。 A. 微内核的系统结构清晰&#xff0c;利于协作开发 B. 微内核代码量少&#xff0c;系统具有良好的可移植性 C. 微内核有良好的伸缩性、扩展性 D. 微内核的功能…

Java解决最后一个单词长度

Java解决最后一个单词长度 01 题目 给你一个字符串 s&#xff0c;由若干单词组成&#xff0c;单词前后用一些空格字符隔开。返回字符串中 最后一个 单词的长度。 单词 是指仅由字母组成、不包含任何空格字符的最大子字符串。 示例 1&#xff1a; 输入&#xff1a;s "Hel…

MT3608B 航天民芯代理 1.2Mhz 24V输入 升压转换器

深圳市润泽芯电子有限公司为航天民芯一级代理商 技术支持欢迎试样~Tel&#xff1a;18028786817 简述 MT3608B是恒定频率的6针SOT23电流模式升压转换器&#xff0c;用于小型、低功耗应用。MT3608B开关频率为1.2MHz&#xff0c;允许使用微小、低电平成本电容器和电感器高度不…

http的basic 认证方式

写在前面 本文看下http的basic auth认证方式。 1&#xff1a;什么是basic auth认证 basic auth是一种http协议规范中的一种认证方式&#xff0c;即一种证明你就是你的方式。更进一步的它是一种规范&#xff0c;这种规范是这样子&#xff0c;如果是服务端使用了basic auth认证…

【源码阅读】 Golang中的database/sql库源码探究

Note&#xff1a;文章待完结 文章目录 前言一、整体目录结构二、driver包1、驱动相关driver.Driver2、驱动连接&#xff1a;driver.Conn3、预处理结构&#xff1a;Stmt4、执行结果 driver.Result5、查询结果&#xff1a;driver.Rows6、driver.RowsAffected7、driver.Value8、Va…

IMU识别高尔夫球击球位置

近日&#xff0c;来自欧洲的一支奥地利科研团队联合高校和业界专家&#xff0c;通过在高尔夫球杆上安装IMU传感器&#xff0c;用来实时精准识别球杆与球的接触点位置&#xff0c;以增强高尔夫训练效果。 该团队致力于开发一种移动式解决方案&#xff0c;以替代传统的静态检测技…

web3j 合约方法调用源码分析

文章目录 调用方法流程FunctionRawTransactionCredentialssignMessagegenerateTransactionHashtoHexStringRawTransactionManager合约执行流程 FastRawTransactionManagerNoOpProcessor代码 调用方法流程 方法包括方法名&#xff0c;参数 返回值 &#xff08;Function&#xf…

python基础知识(17)面向对象 1

一、面向对象的概念 1、面向对象的两个基本概念 编程语言中&#xff0c;一般有两种编程思维&#xff0c;面向过程和面向对象。 面向过程&#xff0c;看重的是解决问题的过程。 这好比我们解决日常生活问题差不多&#xff0c;分析解决问题的步骤&#xff0c;然后一步一步的解决…