必看项目|多维度揭示心力衰竭患者生存关键因素(生存分析、统计检验、随机森林)

1.项目背景

心力衰竭是一种严重的公共卫生问题,影响着全球数百万人的生活质量和寿命,心力衰竭的病因复杂多样,既有个体生理因素的影响,也受到环境和社会因素的制约,个体的生活方式、饮食结构和医疗状况在很大程度上决定了其心力衰竭的风险。在现代社会,随着生活水平的提高和医疗技术的进步,人们的寿命显著延长,但心血管疾病的发病率也在逐年增加,高盐、高脂饮食、不规律的作息和缺乏运动等不健康的生活方式是心力衰竭的主要诱因。此外,心理因素如压力、焦虑和抑郁等也会加重心力衰竭的风险。随着人口老龄化趋势的加剧,心力衰竭问题变得尤为突出。

本项目通过可视化分析对心力衰竭患者的数据进行初步探索,再通过绘制Kaplan-Meier生存曲线和建立Cox比例风险回归模型进行生存分析,探讨导致患者死亡的主要因素。同时,通过斯皮尔曼相关性分析、t检验和卡方检验,从统计角度进一步验证这些因素的显著性。最后,建立随机森林模型,预测患者死亡的概率,并分析模型的重要特征,以此帮助医疗机构和患者制定更有效的预防和治疗策略。

2.数据说明

列名(英文)列名(中文)说明
Age年龄记录患者的年龄,心脏病的风险随年龄增长而增加。
Anaemia贫血贫血可能影响心脏功能,记录患者是否患有贫血。
High blood pressure高血压高血压是心脏病的主要风险因素之一。
Creatinine phosphokinase (CPK)肌酸激酶血液中的CPK水平可以反映心肌损伤。
Diabetes糖尿病糖尿病与心脏病风险增加有关。
Ejection fraction射血分数心脏每次收缩时泵出的血液百分比,是心脏功能的重要指标。
Sex性别性别可能影响心脏病的风险和表现形式。
Platelets血小板血小板水平可能与血液凝固和心脏病风险相关。
Serum creatinine血清肌酐血液中的肌酐水平可以反映肾脏功能,与心脏病风险有关。
Serum sodium血清钠钠水平的异常可能与心脏疾病相关。
Smoking吸烟吸烟是心脏病的一个重要可预防风险因素。
Time时间记录患者的随访期,用于观察长期健康变化。
Death event死亡事件记录患者在随访期间是否发生了死亡事件,作为研究的主要结果指标。

3.Python库导入及数据读取

import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
from lifelines import KaplanMeierFitter,CoxPHFitter
import scipy.stats as stats
from sklearn.model_selection import train_test_split
from imblearn.over_sampling import RandomOverSampler
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import classification_report,confusion_matrix,roc_curve, auc
import warnings
warnings.filterwarnings('ignore')
data = pd.read_csv(r'D:\Desktop\商业数据分析案例\心衰患者特征数据集\heart_failure_clinical_records_dataset.csv')

4.数据预览

查看数据维度

(299, 13)

查看数据信息

查看各列缺失值

查看重复值

0

查看分类特征的唯一值

绘制箱线图,查看是否存在异常值

数据集包含299条记录和13个特征列,不存在缺失值与重复值,分类特征不存在异常值,箱线图中年龄分布较正常,无明显异常值;血液中肌酸激酶水平: 存在明显的异常高值,可能需要进一步确认是否为测量误差或特殊病例;心脏每次收缩时泵出的血液百分比: 分布较集中,无明显异常值;血液中的血小板数量: 存在一些较低或较高的异常值;血液中的肌酐水平: 有较高的异常值,可能需要医学解释;血液中的钠水平: 有少量低值和高值,但这些可能是临床上正常的变异范围;随访期: 分布较正常,无明显异常值。

从统计图表来看,存在潜在的异常值。由于医学数据的复杂性,这里不采取剔除或进一步分析这些数据点。

5.描述性分析

数值特征统计信息

  1. 年龄 (age)

    • 平均值:60.84
    • 标准差:11.89
    • 最小值:40
    • 最大值:95
  2. 肌酸激酶 (creatinine_phosphokinase)

    • 平均值:581.84
    • 标准差:970.29
    • 最小值:23
    • 最大值:7861
  3. 射血分数 (ejection_fraction)

    • 平均值:38.08
    • 标准差:11.83
    • 最小值:14
    • 最大值:80
  4. 血小板 (platelets)

    • 平均值:263358.03
    • 标准差:97804.24
    • 最小值:25100
    • 最大值:850000
  5. 血清肌酐 (serum_creatinine)

    • 平均值:1.39
    • 标准差:1.03
    • 最小值:0.5
    • 最大值:9.4
  6. 血清钠 (serum_so

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/844424.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

使用moquette mqtt发布wss服务

文章目录 概要一、制作的ssl证书二、配置wss小结 概要 moquette是一款不错的开源mqtt中间件,github地址:https://github.com/moquette-io/moquette。我们在发布mqtt服务的同时,是可以提供websocket服务器的,有些场景下需要用到&a…

OpenAI新模型开始训练!GPT6?

国内可用潘多拉镜像站GPT-4o、GPT-4(更多信息请加Q群865143845): 站点:https://xgpt4.ai0.cn/ OpenAI 官网 28 日发文称,新模型已经开始训练! 一、新模型开始训练 原话:OpenAI has recently begun training…

价值飙升30%,AI PC拉动半导体出货潮

由于处理器和DRAM的升级,大摩预测每台AI PC的半导体价值将增长20%-30%,PC平均售价也将提高7%。 台北国际电脑展即将于6月2日隆重开幕。 随着展会的临近,各种现象级的AI PC也蓄势待发。 就在上周,联想在业绩会上,首次…

2-EMMC启动及各分区文件生成过程

EMMC的使用比nand flash还是复杂一些,有其特有的分区和电器性能 1、启动过程介绍 跟普通nand或spi flash不同,uboot前面还有好几级 在vendor某些厂商的设计中,ATF并不是BOOTROM加载后的第一个启动镜像,可能是这样的: …

java的方法重写

重写的概述 重写是基于继承来说的,因为父类的方法需求不满足于子类,所以就要在进行方法重写,如果不知道继承是啥可以看我上一篇笔记 在这里用代码举个栗子 例如:我们定义了一个动物类代码如下: public class Animal…

Leecode热题100---二分查找--4:寻找两个正序数组的中位数

题目: 给定两个大小分别为 m 和 n 的正序(从小到大)数组 nums1 和 nums2。请你找出并返回这两个正序数组的 中位数 。 解法1、暴力解法(归并) 思路: 合并 nums1,nums2 为第三个数组 排序第三个数…

XXL-JOB分布式任务调度框架详解(全网最详细!!!)

​​​​​​​ 引言 第一部分:XXL-JOB概述 第二部分:架构与组件 第三部分:使用教程 第四部分:源码分析 第五部分:最佳实践 引言 在分布式系统中,任务调度是一项基础而又关键的服务,它涉…

Java设计模式:享元模式实现高效对象共享与内存优化(十一)

码到三十五 : 个人主页 目录 一、引言二、享元设计模式的概念1. 对象状态的划分2. 共享机制 三、享元设计模式的组成四、享元设计模式的工作原理五、享元模式的使用六、享元设计模式的优点和适用场景结语 [参见]: Java设计模式:核心概述&…

拼接字符串

自学python如何成为大佬(目录):https://blog.csdn.net/weixin_67859959/article/details/139049996?spm1001.2014.3001.5501 使用“”运算符可完成对多个字符串的拼接,“”运算符可以连接多个字符串并产生一个字符串对象。 例如,定义两个字符串&#…

任务3.1:采用面向对象方式求三角形面积

面向对象编程(OOP)是一种将现实世界中的实体抽象为对象,并通过类和对象来模拟现实世界中的行为和属性的编程范式。在本实战任务中,我们通过创建一个Triangle类来模拟现实世界中的三角形,并使用面向对象的方法来求解三角…

「清新题精讲」CF249D - Donkey and Stars

更好的阅读体验 CF249D - Donkey and Stars Description 给定 n n n 个点 ( x i , y i ) (x_i,y_i) (xi​,yi​) 和 a , b , c , d a,b,c,d a,b,c,d,求出最多有多少个点依次连接而成的折线上线段的斜率在 ( a b , c d ) (\frac{a}{b},\frac{c}{d}) (ba​,dc​…

【智能算法】波搜索算法(WSA)原理及实现

目录 1.背景2.算法原理2.1算法思想2.2算法过程 3.结果展示4.参考文献5.代码获取 1.背景 2024年,H Zhang受到雷达技术启发,提出了波搜索算法(Wave Search Algorithm, WSA)。 2.算法原理 2.1算法思想 WSA模拟雷达工作时的发射、反…

opencascade 笔记

opencascade 画一个无限大的面 在 OpenCascade 中&#xff0c;要绘制一个无限大的面&#xff0c;你可以使用 gp_Pln 类来定义一个平面&#xff0c;然后将其绘制出来。这里是一个示例代码&#xff0c;演示如何在 OpenCascade 中绘制一个无限大的平面&#xff1a; #include <…

Hudi之数据读写探究

Hudi之数据读写深入探究 1. Hudi数据写入 1-1. 写操作 Hudi数据湖中的数据更新、插入和删除操作&#xff0c;是一个基于Apache Hadoop的库&#xff0c;为数据湖提供了一种有效的方法来处理更新和增量数据&#xff0c;并支持基于时间的快照和增量数据处理。Hudi支持三种主要的…

博物馆三维实景vr展示

VR技术应用到地产行业的优势不言而喻&#xff0c;随着购房政策的进一步放宽&#xff0c;购房刚需者借助VR商铺样板间展示系统看房&#xff0c;远比之前跑楼盘更便捷高效。那么VR商铺全景展示具体有哪些好处呢? VR技术与商铺的结合&#xff0c;为客户带来了前所未有的购房体验。…

Thingsboard规则链:Calculate Delta节点详解

在物联网(IoT)应用中&#xff0c;对设备数据的实时分析和处理是优化运营、预测维护的关键。Thingsboard作为一款功能强大的物联网平台&#xff0c;其规则引擎提供了丰富的节点来处理和分析数据流。其中&#xff0c;Calculate Delta节点是一个重要的工具&#xff0c;用于计算连续…

2024年西安交通大学程序设计校赛(ABCDEFO)

题目链接&#xff1a;https://vjudge.net/contest/630537#overview 文章目录 A题题意思路编程 B题题意思路编程 C题题意思路编程 D题题意思路编程 E题题意思路编程 F题题意思路编程 O题题意思路编程 写在前面&#xff1a;今天的训练赛出的题目偏简单&#xff0c;与XCPC的难度差…

C语言-----指针数组 \ 数组指针

一 指针数组 用来存放指针的数组 int arr[10]; //整型数组 char ch[5]; //字符数组 int * arr[6]; //存放整型指针的数组 char * arr[5]; //存放字符指针的数组 // 指针数组的应用 int main() {int arr1[] { 1,2,3,4,5 };int arr2[] { 2,3,4,5,6 };int arr3[] { 3,4,…

滴滴一季度营收同比增长14.9%至491亿元 经调整EBITA盈利9亿元

【头部财经】5月29日&#xff0c;滴滴在其官网发布2024年一季度业绩报告。一季度滴滴实现总收入491亿元&#xff0c;同比增长14.9%&#xff1b;经调整EBITA&#xff08;非公认会计准则口径&#xff09;盈利9亿元。其中&#xff0c;中国出行一季度实现收入445亿元&#xff0c;同…

第一课、Power BI 集成Python

1&#xff0c;下载安装python Python软件地址&#xff1a;Welcome to Python.org 双击自定义安装指定位置并勾选配置环境变量。 后续一直往下&#xff0c;安装完成。 检验是否成功&#xff0c;在cmd命令窗口下输入python 即可看到版本。 安装 pip install pandas 和 pip…