6.乳腺癌良性恶性预测(二分类、逻辑回归、PCA降维、SVD奇异值分解)

乳腺癌良性恶性预测

  • 1. 特征工程
    • 1.1 特征筛选
    • 1.2 特征降维 PCA
    • 1.3 SVD奇异值分解
  • 2. 代码
    • 2.1 逻辑回归、二分类问题
    • 2.2 特征降维 PCA
    • 2.3 SVD奇异值分解

1. 特征工程

  • 专业上:30个人特征来自于临床一线专家,每个特征和都有医学内涵;
  • 数据上:30个中可能有一些是冗余的。

1.1 特征筛选

  • 从30个选出重要的,踢掉不重要的。
  • 从数据的角度来讲,不建议进行特征筛选,做特征筛选可能只是为了解释性,给领导看看而已。因为再不重要的特征都有信息,筛选掉必然导致信息的丢失。
  • 线性回归的系数代表该项特征的重要性,系数就代表权重。
  • 使用协方差皮尔逊系数判断两列特征的相关性。

1.2 特征降维 PCA

  • 把原来30个特征中的核心信息中抽取出来,融合到新生成的几个特征中,新的特征不是原来的任何一个!
  • PCA(Principal Component Analysis,主成分分析)

1.3 SVD奇异值分解

  • SVD(奇异值分解)是一种在信号处理、统计学、机器学习等领域广泛应用的矩阵分解方法。
  • 它可以将一个矩阵分解为三个特定的矩阵的乘积,这三个矩阵分别是:一个正交矩阵、一个对角矩阵(其元素为奇异值,且按从大到小排列)以及另一个正交矩阵的转置。

2. 代码

2.1 逻辑回归、二分类问题

y = F ( X ) = s i g m o i d ( x 0 w 0 + x 1 w 1 + x 2 w 2 + . . . + x 12 w 12 ) y=F(X)=sigmoid(x_0w_0+x_1w_1+x_2w_2+...+x_{12}w_{12}) y=F(X)=sigmoid(x0w0+x1w1+x2w2+...+x12w12)

from sklearn.datasets import load_breast_cancer
X,y=load_breast_cancer(return_X_y=True)
print(X.shape,y.shape)  #:(569, 30) (569,)from sklearn.model_selection import train_test_split
X_train,X_test,y_train,y_test = train_test_split(X,y)
# 逻辑回归,实际是二分类,就是线性回归加了一个激活函数 sigmoid
from sklearn.linear_model import LogisticRegression
lr=LogisticRegression(max_iter=10000)
lr.fit(X_train,y_train)
pred=lr.predict(X_test)
acc=(pred==y_test).mean()
print(acc)

2.2 特征降维 PCA

# 特征降维 PCA(主成分分析)
from sklearn.decomposition import PCA
pca = PCA(n_components=20)
pca.fit(X_train)
X_train1 = pca.transform(X_train)
# 原始数据
lr = LogisticRegression(max_iter=10000)
lr.fit(X_train,y_train)
(lr.predict(X_test)==y_test).mean()  #:0.965034965034965
# 10个特征
lr1 = LogisticRegression(max_iter=10000)
# 特征降维
# 1. 构建
pca=PCA(n_components=10)
# 2. 拟合
pca.fit(X_train)
# 3. 转换
X_train1 = pca.transform(X_train)
X_test1 = pca.transform(X_test)lr1.fit(X_train1,y_train)
(lr1.predict(X_test1)==y_test).mean()  #:0.958041958041958

2.3 SVD奇异值分解

import numpy as np
from matplotlib import pyplot as plt
beauty = plt.imread(fname="beauty.jpg")
# [Height, Width, Channel]
print(beauty.shape)  #:(627, 481, 3)
r=beauty[:,:,0]
plt.imshow(r,cmap='gray')

在这里插入图片描述

U, S, V = np.linalg.svd(a=r, full_matrices=False)
print(U.shape,S.shape, V.shape)  #: (627, 481) (481,) (481, 481)
plt.plot(S)

在这里插入图片描述

"""降维之后的效果
"""
K = 20
restore = U[:,:K] @ np.diag(S[:K]) @ V[:K, :]
plt.imshow(X=restore, cmap="gray")

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/50251.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

7月25日JavaSE学习笔记

线程的生命周期中,等待是主动的,阻塞是被动的 锁对象 创建锁对象,锁对象同一时间只允许一个线程进入 //创建锁对象Lock locknew ReentrantLock(true);//创建可重入锁 可重入锁:在嵌套代码块中,锁对象一样就可以直接…

进销存系统开发,进销存源码解析,添加商品选择商品

点击添加商品信息(可以) (关键字范围:商品名称,简拼,条形码,SKU,规格,参数,尺寸,接口,CPU,品牌) function cwpd_selSaleGoodsNewMore_Vtax2024(domid,width…

sed利用脚本处理文件

一、sed是什么 sed 命令是利用脚本来处理文本文件。它可以依照脚本的指令来处理、编辑文本文件。主要用来自动编 辑一个或多个文件、简化对文件的反复操作、编写转换程序等。 二、sed的原理 读入新的一行内容到缓存空间; 从指定的操作指令中取出第一条指令&…

【时时三省】(C语言基础)分支语句2

山不在高,有仙则名。水不在深,有龙则灵。 ——csdn时时三省 多分支语句 if(表达式1) 语句1; else if(表达式2) 语句2; else 语句3; 如果表达式1成立语句1会执行 如果不成立表达式2执行 如果表达式2成…

【运维笔记】数据库无法启动,数据库炸后备份恢复数据

事情起因 在做docker作业的时候,把卷映射到了宿主机原来的mysql数据库目录上,宿主机原来的mysql版本为8.0,docker容器版本为5.6,导致翻车。 具体操作 备份目录 将/var/lib/mysql备份到~/mysql_backup:cp /var/lib/…

Multiview LM-ICP 配准算法

Multiview LM-ICP 配准算法针对一些大型的物体(比如建筑物)或者需要精细化建模的物体(比如某个文物),仅仅进行成对的配准难以还原物体的全貌和细节。所以,多个视角的配准十分关键。 多视角的配准存在以下两…

[STM32]FlyMcu同时烧写BootLoader和APP文件-HEX文件组成

目录 一、前言 二、HEX文件的格式 三、组合HEX文件 四、使用FlyMcu烧录 一、前言 如题,BootLoader每次烧写都是全部擦除,当我们烧写APP程序的时候,BootLoader程序将不复存在,很多开发者或许只有USB转TTL模块,没有其…

grep命令搜索部分命令

首先 然后可以输入|以及grep命令 比如 bjobs| grep "3075*"bjobs| grep "3075"这个结果是这样的,

MYSQL 第四次作业

任务要求: 具体操作: 新建数据库: mysql> CREATE DATABASE mydb15_indexstu; Query OK, 1 row affected (0.01 sec) mysql> USE mydb15_indexstu; Database changed 新建表: mysql> CREATE TABLE student( ->…

遇到总条数count(*)返回不了数据

文章目录 前提1.准备数据1.1 建表语句1.2 插入数据 2.程序代码3.返回结果与分析4.验证 前提 获取h_user表中count(*)字段的值打印出来,打印出来是0,数据库中执行sql返回不是0。端点调试找到原因。下面先把数据库表数据及程序贴出来。 1.准备数据 1.1 …

CSS技巧专栏:一日一例 12 -纯CSS实现边框上下交错的按钮特效

CSS技巧专栏:一日一例 12 -纯CSS实现边框上下交错的按钮特效 大家好,今天我们来做一个上下边框交错闪动的按钮特效。 本例图片 案例分析 虽说这按钮给人的感觉就是上下两个边框交错变换了位置,但我们都知道border是没法移动的。那么这个按…

【无标KaiwuDB CTO 魏可伟:差异化创新,面向行业的多模架构题】

2024年7月16日,KaiwuDB CTO 魏可伟受邀于 2024 可信数据库发展大会主论坛发表演讲《多模一库 —— KaiwuDB 的现代数据库架构探索》,以下是演讲精华实录。 多模数据库 是顺应时代发展与融合趋势的产物 数据模型最早始于网状模型和层次模型,…

Spark实时(五):InputSource数据源案例演示

文章目录 InputSource数据源案例演示 一、​​​​​​​File Source 1、读取text文件 2、读取csv文件 3、读取json文件 二、Socket Source 三、Rate Source InputSource数据源案例演示 在Spark2.0版本之后,DataFrame和Dataset可以表示静态有边界的数据&am…

移动式气象站:便携科技的天气守望者

在科技日新月异的今天,我们身边的许多设备都在向着更加智能化、便携化的方向发展。而在气象观测领域,移动式气象站的出现,不仅改变了传统气象观测的固有模式,更以其灵活性和实时性,在气象监测、灾害预警等领域发挥着越…

MySQL练习05

题目 步骤 触发器 use mydb16_trigger; #使用数据库create table goods( gid char(8) primary key, name varchar(10), price decimal(8,2), num int);create table orders( oid int primary key auto_increment, gid char(10) not null, name varchar(10), price decima…

基于python的BP神经网络红酒品质分类预测模型

1 导入必要的库 import pandas as pd import numpy as np import matplotlib.pyplot as plt from sklearn.model_selection import train_test_split from sklearn.preprocessing import LabelEncoder from tensorflow.keras.models import Sequential from tenso…

NET8部署Kestrel服务HTTPS深入解读TLS协议之Certificate证书

Certificate证书 Certificate称为数字证书。数字证书是一种证明身份的电子凭证,它包含一个公钥和一些身份信息,用于验证数字签名和加密通信。数字证书在网络通信、电子签名、认证授权等场景中都有广泛应用。其特征如下: 由权威机构颁发&…

跟李沐学AI:池化层

目录 二维最大池化 填充、步幅和多个通道 平均池化层 池化层总结 二维最大池化 返回滑动窗口中的最大值。 图为池化窗口形状为 22 的最大池化层。着色部分是第一个输出元素,以及用于计算这个输出的输入元素: max(0,1,3,4)4。池化层与卷积层类似,不断…

单元测试的最佳实践

整体架构 合适的架构可以提升可测试性。比如菱形对称架构的模块化和解耦特性使得系统各个部分可以独立进行单元测试。这不仅提高了测试的效率,还能够减少测试的依赖性,提高测试准确性。 代码设计 代码设计和可测试性有密切关联。强烈建议一个方法的代码行…

Android 15 适配整理——实践版

背景 谷歌发布Android 15后,国内的手机厂商迅速行动,开始了新系统的适配工作。小米、OPPO、vivo和联想等金标联盟成员联合发布了适配公告,督促APP开发者在2024年8月31日前完成适配工作,否则将面临搜索标签提示、应用降级、分机型…