数据分析与可视化
心力衰竭或心血管疾病 (CVD) 是全球第一大死因,每年夺去大约1790 万人的生命,占全球所有死亡人数的 31%。
大多数心血管疾病可以通过使用全民策略解决烟草使用、不健康饮食和肥胖、缺乏身体活动和有害使用酒精等行为风险因素来预防。
患有心血管疾病或处于高心血管风险(由于存在一种或多种风险因素,如高血压、糖尿病、高脂血症或已经确定的疾病)的人需要早期检测和管理,其中机器学习模型可以提供很大帮助。
数据可视化
介绍
为了更好地理解数据集,我们以图形格式表示它。这有助于我们解释数据并识别模式。由于人脑处理信息的方式,使用图表或图形可视化大量复杂数据比仔细研究电子表格或报告更容易。
预处理:
首先,我们首先检查数据集中是否存在 NaN 值。这有助于我们验证数据的完整性。如下图所示,不存在 NaN 值,这意味着这是一个完整的数据集。
接下来,我们获得数据集的摘要以更好地理解数据集。这将为我们提供有关数据列数、数据类型和条目数的信息。
从上图可以看出,数据集有 13 列,299 个数据条目,数据为数字格式。
接下来,我们重命名数据集及其数据入口点以更好地表达它们的含义。我们将数据集中的 1 和 0 更改为它们的代表字符串,并重命名列名以获得更清晰和更好的外观。最终,我们 得到如下所示的数据集:
目标数据:患者状态
患者状态:如果患者在随访期间死亡(布尔值)
该数据集的目标是预测患者是否会心脏病发作。我们首先检查我们是否有一个平衡的目标变量。因此,我们绘制了目标变量的饼图。
如上所示,目标变量仅占数据集的 32.1%。这意味着数据集是高度不平衡的。但就我们任务的性质而言,不平衡的数据集不是问题。由于工作的性质,大多数患者可能不易患心脏病。
年龄和心力衰竭
年龄:代表患者的年龄。(整数)
我们首先在直方图中绘制关于“患者状态”的第一个特征变量“年龄”。“年龄”的范围是40-95。
-
70 岁以上的患者中有 49.35% 患有心脏病。(77 之 38)
-
26.13% 的 70 岁以下患者心脏病发作。(222 人中有 58 人)
性和心力衰竭
性别:代表患者的性别。(布尔值)
接下来我们绘制“性别”和“患者状态”。如下图所示,男性占整个数据集的 64.9%。
-
31% 的男性患者心脏病发作。
-
32% 的女性患者心脏病发作。
糖尿病和心力衰竭
糖尿病:表示患者是否患有糖尿病。(布尔值)
接下来我们绘制“糖尿病”和“患者状态”。如下图所示,糖尿病患者占整个数据集的 41.8%。这个功能比较平衡。
-
60 岁是糖尿病患者的平均年龄,而非糖尿病患者心脏病发作的平均年龄是 68.5 岁。
-
从上图可以看出,有一群糖尿病患者在 59-60 岁之间患有心脏病。
-
总的来说,非糖尿病患者的寿命往往比糖尿病患者长。
吸烟与心力衰竭
吸烟:代表一个人是否吸烟。(布尔值)
进一步绘制吸烟患者,他们占数据集的 32.1%。 因此,该特征在数据集中不平衡,导致结果出现偏差。
-
50% 的吸烟者在 60-72 岁之间患有心脏病。
-
而 25% 的非吸烟者在 60-75 岁之间心脏病发作。
高血压和心力衰竭
高血压:代表一个人是否患有高血压或高血压。(布尔值)
同样,我们绘制患有高血压(高血压)的患者。如下所示,占数据集的 35.1%。
-
50% 的高血压患者在 50-75 岁之间心脏病发作。
射血分数和心力衰竭
射血分数(EF):每次收缩时离开心脏的血液百分比。(整数)
正常心脏的射血分数可能在 50% 到 70% 之间。射血分数测量值低于 40% 可能是心力衰竭的证据。
41% 到 49% 的 EF 可能被认为是“临界值”。它并不总是表明一个人正在发展为心力衰竭。相反,它可能表示损伤,可能来自之前的心脏病发作。
-
33.8% 的射血功能低下的患者心脏病发作。
-
19% 的射血分数正常的患者心脏病发作。
-
可以看出,对于具有高射血分数水平的患者而言,数据太小而无法做出有根据的推断。
血小板
血小板:血液中的血小板 (kiloplatelets/mL)(整数)
正常的血小板计数范围为 150,000 至 350,000。
-
30% 的血小板计数正常的患者心脏病发作。
-
37% 的血小板计数高的患者心脏病发作。
-
41% 的血小板计数低的患者心脏病发作。
贫血
贫血:表示患者是否患有贫血。(布尔值)
贫血患者约占数据集的 43.1%。因此,此功能似乎相当平衡。
-
50% 的贫血患者在 58-75 岁之间心脏病发作。
肌酐磷酸激酶
肌酐磷酸激酶:血液中 CPK 酶的水平 (mcg/L)。(整数)
在 健康 成人中,血清 CK 水平 因多种因素(性别、种族和活动)而异,但 正常范围 为 22 至 198 U/L(单位/升)。
-
32.7%的CPK值高的患者心脏病发作。
-
24.7% 的 CPK 值正常的患者心脏病发作。
血清肌酐
血清肌酐:血液中的血清肌酐水平 (mg/dL)。(漂浮)
血液中肌酐的正常范围可能为每分升 0.84 至 1.21 毫克(每升 74.3 至 107 微摩尔),尽管这可能因实验室、男性和女性以及年龄 而 异 。
-
25.7% 的肌酐水平正常的患者心脏病发作。
-
52.8% 的肌酐水平高的患者心脏病发作。
血清钠
血清钠:血液中的血清钠水平 (mEq/L)(整数)
正常 血钠水平 在每升 135 到 145 毫当量 (mEq/L) 之间,尽管这可能因实验室、男性和女性以及年龄而异。
-
32% 钠含量正常的患者心脏病发作。
-
从上面可以看出,对于高钠水平的患者来说,数据太小而无法做出有根据的推断。
数据可视化与机器学习建模就为大家介绍到这里,欢迎大家学习《python机器学习生物信息学》了解更多相关知识。
版权声明:文章来自公众号(python生物信息学),未经许可,不得抄袭。遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。