医疗数据典型特征及架构发展方向研究

前言

医疗健康产业目前呈高速发展状态,处在互联网对医疗行业赋能的关键阶段,由于医疗行业数据的隐私性较强,通过传统方式很难获取公开的医疗健康数据进行研究,根据阿里云天池比赛赛题设置研究及提供的脱敏数据集着手进行分析是比较理想的手段。本文的目的在于对医院的信息系统流程进行思考,结合公开数据集对于医疗健康数据特征进行分析,从而得出未来医疗健康产业数据架构模式的发展方向。

医疗健康数据特征

首先看一下天池比赛近期的两场比赛,都是针对医疗数据进行研究并进行挖掘的,采用脱敏数据,数据来源于实际病例因此参考价值较高:

分析两个比赛提供的数据集形式,可以明显感到医疗数据集的特征为数据异构,即因为医疗检测手段的关系,数据图像化比例较高,但是因为训练数据集需要根据患者其他特征包括性别、年龄、身高、体重等进行统筹分析,因此也包含了一部分结构化数据,因此医疗数据集是典型的非结构化数据和结构化数据并存的异构数据集。

常用预测算法分析

医疗数据所需要的预测结果一般为分类,由于结果的主要目的并非直接作出定性结论而更多的是为医生提供参考因此二分类(即是或不是)和多分类(分为几类)都有实际价值。
从宫颈癌风险智能诊断比赛要求结果看,初赛恶性细胞检测算法属于二分类问题,而复赛宫颈癌恶性细胞检测分类算法属于多分类问题即需要将检测结果分类成5类典型宫颈癌。
数据处理方面,需要结合训练集图像输入和医生的手工标注信息和患者特征信息,因此深度学习算法的普遍使用成为必然,由于单张CT图片和标注信息只能属于一个患者因此JSON文件被采用作为记录文件形式是非常合适的,单张CT文件对应单个JSON文件相比结构化表单能够更好的记录数据。

从数据量大小分析,数千份宫颈癌细胞学图片和对应异常鳞状上皮细胞位置标注,每张数据在20倍数字扫描仪下获取,大小300~400M。因此以训练集包含800张图片计算训练数据集大小约为273G,非结构化数据占了绝大部分。
从心电人机智能大赛比赛要求结果看,心电异常事件分类属于多分类问题即需要将检测结果分类成训练集中的异常事件种类。4万个医疗心电样本。每个样本有8个导联,分别是I,II,V1,V2,V3,V4,V5和V6。单个样本采样频率为500 HZ,长度为10秒,单位电压为4.88微伏(microvolts)。因此在检测设备输出时已经将数据结构化,相比CT图片的特征提取和数据处理并不需要采用深度学习算法,常规数据预处理手段即能满足需求。
从算法角度进行分析,针对图片进行计算需要用到深度学习算法,各类神经网络中RNN即卷积神经网络被使用频率较高,也是目前图像识别的主流算法。对两个比赛中选手公开的算法进行统计,宫颈癌风险智能诊断比赛所采用的算法几乎全部为基于神经网络的深度学习算法,差异无非是所采用的深度学习框架不同和基于神经网络衍生的算法采用不同。代表数据科学界对于未来非结构化医疗数据所采用的算法大方向上是统一的。心电人机智能大赛采用算法为机器学习分类算法,目前基于决策树的分类算法占据绝对主导地位,在决策树的基础上衍生的机器学习算法如RF即随机森林算法、GBDT算法和LIGHTLGBM算法又占了多数,LIGHTLGBM算法最普遍被使用。
从交叉验证集调参和测试集验证效果评估来说,面向癌症算法和其他如心脏异常情况算法需要关注的角度不一样,癌症因为检测结果对于病员包括家属心理冲击很大,因此对于测准率和召回率的平衡问题需要非常关注,防止算法过拟合而造成的草木皆兵情况,同时也加大了医生复核的工作量。而心脏异常算法或是其他普通生化指标数据,则过拟合的问题没有那么严重,因为数据的体量到了一定的程度根据大数定理即使过拟合也会逐步的倾向于往较为准确的趋势发展。特别对于心脏异常情况判断,高测准率极其重要,因为数据的实时性强并且随时间变化价值下降速度较快,即使过拟合而误报,能让病员或家属重视总是没有错的。

医疗数据处理架构方案

根据以上对于医疗健康数据特征、所采用的数据挖掘算法分析结果,对于医疗数据处理所用的架构方案进行研究。
医疗数据结构化和非结构化并存的特征造成需要使用CPU和GPU结合的异构计算。从医院现实条件来说,非结构化数据的来源主要为放射性检查设备等产生的图像,如CT每张图片的大小就约为350M,而生化指标包括心电指标能够以结构化数据呈现。非结构化数据的处理需要消耗大量GPU计算力,无法在现实情况下要求医院对于本地IDC机房进行大规模扩容并增加GPU集群。因此从架构上来说云-雾-边协同会是比较理想的架构方式。
1 边缘计算节点
各类检测设备附近的计算节点(包括设备自带的和医生查看结果的PC机)构成协同体系内边缘计算节点,但是现有技术条件下边缘计算的计算力相对偏弱,无法要求边缘节点进行大规模图像识别计算,因此边缘计算节点的主要任务是数据清洗并负责向雾端传送,由于医院的检查种类较多,各种报告和图像信息数据格式并不统一,因此预先在边缘端进行数据清洗有助于雾端和云端降低计算压力并帮助医院未来实现统一数据中台可能。
2 雾计算节点
医院现有本地IDC机房可以考虑作为雾计算节点,雾计算节点目前对于医疗行业尤其重要,虽然5G技术在时延上和传输速度上都满足大规模数据传输要求但是由于医院的环境较为复杂,如果边缘计算节点的数据需要直接传送到云端则在网络层会极其依赖无线通信手段,而无线通信特别是5G较高的频率在全方位全覆盖性的边缘计算节点与云端通信过程中是否会对医疗设备产生干扰和其他预料之外的问题需要在实际应用中再研究,短期内,边缘计算节点数据通过有线通信手段传送到雾计算节点是最合适的方法。
雾计算节点的现实作用非常多,如集中边缘计算节点数据和区分应用场景并进行计算,特别如果个别医院本地IDC服务器集群配置较强则可以就地对于结构化数据进行挖掘、训练模型并进行预测工作而不必传送到云端。此外从通信角度,雾端作为统一数据出口向云端无线传输数据可以最大可能避免无线信号对于医疗设备可能的干扰作用。短期5G未普及情况或者费用较高的情况下可以采用本地IDC与云端专线通信方式作为过渡手段。
在具有多个院区的医院中,不同地域的本地IDC作为雾端能够进行异地容灾建设。多个本地IDC机房在不同地域互为灾备,确保单一节点故障能够及时迁移确保业务不中断及存储数据的可用性和完整性。
3 云端
云计算平台能够很好的解决医院异构数据计算需求大但又短时间无法配置大规模GPU集群的现实情况,CT等放射性检查设施产生的高清图像文件及其他需要采用深度学习算法的数据可以统一通过雾端传输到云端进行计算,云计算弹性伸缩的优势在面对医院计算力需求随患者数量呈时间性波动的情况时也可以最大可能的减小医院异构计算成本,GPU集群的配置通过弹性伸缩在医院计算力需求大时自动扩充计算节点,而需求小时自动减小集群内虚拟机规模。


原文链接
本文为云栖社区原创内容,未经允许不得转载。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/517255.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

分布式事务 GTS 的价值和原理浅析

GTS 今年双 11 的成绩 今年 2684 亿的背后,有一个默默支撑,低调到几乎被遗忘的中间件云产品——GTS(全局事务服务,Global Transaction Service),稳稳地通过了自 2014 年诞生以来的第 5 次“大考”。 2019 …

kafka java.net.UnknownHostException: node4 Error connecting to node node4:9092

解决:修改kafka的server.properties文件 vim /kafka安装路径/config/server.properties 去除下面这行配置的注释,并设置对应的ip地址 #advertised.listenersPLAINTEXT://your.host.name:9092 advertised.listenersPLAINTEXT://192.168.92.104:9092 重启…

看全新升级的KubeSphere 3.0 如何助力企业在容器混合云时代乘风破浪?

数据时代,层出不穷的创新型业务对企业IT提出了更高的要求,业务、技术和管理方面的挑战也逐渐显现。对此,越来越多的企业希望能够快速、简单地创建企业应用,敏捷地满足业务创新的需求,同时还能维持极高的企业级服务水平…

5G的7大用途,你知道几个?

阿里妹导读:5G时代悄悄来临,甚至成为街头巷尾都在讨论的话题。相信你一定有过一些疑问:什么是5G?仅仅只是网速更快吗?5G如何做到毫秒级的延迟?网络切片是什么?5G的标准之争是怎么回事&#xff0…

ALive:淘宝双11直播,技术同学却可以“偷懒”?

“疯狂的”淘宝直播间 今年直播又火了! 2019年双11淘宝直播带来近 200亿 成交,以天猫双11交易总额2684亿计算,直播已经占总成交额的近 7.45%! 今年的变化 除了以往的手淘和猫客,现在 UC 浏览器、新浪微博、支付宝、…

虚拟机安装centos

到官网下载centos系统: https://www.centos.org/download/ 有三种选择(DVD IOS,Everything IOS, Minimal IOS(精简版的)),建议使用DVD IOS 安装虚拟机: #选择典型安装: #选择稍后安装&#…

KAFKA SpringBoot2 Nacos 消息异步发送和消费消息(进阶篇)

文章目录一、基础集成1. 技术选型2. 导入依赖3. kafka配置4. auto-offset-reset 简述5. 新增一个订单类6. 生产者(异步)7. 消费者8. kafka配置类9.单元测试9. 效果图10. 源码地址11.微服务专栏一、基础集成 1. 技术选型 软件/框架版本jdk1.8.0_202spri…

看懂别人的代码,只是成为高效程序员的第一步!

作者 | SeattleDataGuy译者 | 弯月,责编 | 屠敏出品 | CSDN(ID:CSDNnews)在为面试做准备的时候,很多软件工程师都花费了大量时间做编程题和完善简历。最终在找到一份工作后,无论是在创业公司、Google、亚马…

响应速度不给力?解锁正确缓存姿势

阿里妹导读:响应时间长,遇到性能瓶颈时,开发者第一个想到的总是性能优化。《什么技能产品经理不会提,但技术人必须懂?》讲到了什么时候需要使用缓存。但缓存的用法是什么?一旦缓存使用不当,或稍…

Spring Boot2 集成 jasypt 3.0.4 配置文件敏感信息加密

文章目录1. 导入依赖2. yml中添加配置文件3. 加解密工具类4. 敏感信息替换5. 编译打包6. 启动项目1. 导入依赖 <!--敏感信息加密--><dependency><groupId>com.github.ulisesbocchio</groupId><artifactId>jasypt-spring-boot-starter</artifa…

技术直播:1小时突击Java工程师面试核心(限免报名)

后疫情时代&#xff0c;连程序员这个多金的职业也遭受到了一定程度的打击。从各大招聘网站和多次面试经历中&#xff0c;相信大家已经意识到&#xff0c;面试官对程序员技能体系和项目经验考核似乎更严苛了。你在面试中常常为什么苦恼呢&#xff1f;简历撰写&#xff1f;数据算…

重塑云上的 Java 语言

音乐无国界&#xff0c;但是音乐人有国界。 云原生亦如此。虽没有限定的编程语言&#xff0c;但应用所使用的编程语言已经决定了应用部署运行的行为。 Java 诞生于20年前&#xff0c;拥有大量优秀的企业级框架&#xff0c;践行 OOP 理念&#xff0c;更多体现的是严谨以及在长…

5分钟带你看懂 GCanvas渲染引擎的演进

本文内容大纲&#xff1a; 1、轻量级图形渲染引擎与应用 2、渲染引擎演进与优化之路 3、渲染引擎未来的发展方向 GCanvas 的定位是遵循 w3c 标准的跨平台的轻量级图形渲染引擎。有清晰的定位和目标&#xff0c;并且紧贴现有的业务&#xff0c;为业务提供丰富表现形式。 GCa…

免费技术直播:唐宇迪带你一节课了解机器学习经典算法

常常有小伙伴在后台反馈&#xff1a;机器学习经典算法有哪些&#xff1f;自学难度大又没有效果&#xff0c;该怎么办&#xff1f;CSDN为了解决这个难题&#xff0c;联合唐宇迪老师为大家带来了一场精彩的直播【一节课掌握机器学习经典算法-线性回归模型】。本次直播将帮大家了解…

Centos7 安装Go环境

文章目录1. 下载2. 解压 和目录创建3. 配置环境变量4. 刷新环境变量5. 验证1. 下载 https://golang.google.cn/dl/ wget https://golang.google.cn/dl/go1.17.1.linux-amd64.tar.gz2. 解压 和目录创建 tar -zxvf go1.17.1.linux-amd64.tar.gz -C /usr/local/ mkdir gocode3…

深度学习在商户挂牌语义理解的实践

​导读&#xff1a;高德地图拥有几千万的POI兴趣点&#xff0c;例如大厦、底商、学校等数据&#xff0c;而且每天不断有新的POI出现。为了维持POI数据的鲜度&#xff0c;高德会通过大量的数据采集来覆盖和更新。现实中POI名称复杂&#xff0c;多变&#xff0c;同时&#xff0c;…

云计算与星辰大海的结合——不要回答,来自百亿光年外的未知信号

作者 | 硬核云顶宫责编 | Carol出品 | CSDN云计算&#xff08;ID&#xff1a;CSDNcloud&#xff09;今年在疫情的影响下&#xff0c;各国的经济发展都遇到了一些困难&#xff0c;甚至除中国以外的主要经济体都会进入了负增长的情况&#xff0c;不过越是这样的时候&#xff0c;越…

让大数据分析更简单,4步教你玩转MongoDB BI Connector

MongoDB使用BI Connector支持BI组件直接使用SQL或ODBC数据源方式直接访问MongoDB,在早期MongoDB直接使用Postgresql FDW实现 SQL到MQL的转换,后来实现更加轻量级的mongosqld支持BI工具的连接。 安装 BI Connector 参考 Install BI Connectorhttps://docs.mongodb.com/bi-conne…

谷歌排名第一的编程语言,收下这份资料,小白也能学的会!

学习 Python 的过程中你是否有过这样的问题&#xff1a; 应用方向太多了&#xff0c;不知道该选择哪个&#xff0c;也不知道学习路径是什么。 入门简单&#xff0c;但是精通很难&#xff0c;每次学完做练习项目时都头疼&#xff0c;没思路&#xff0c;甚至怀疑自己不适合编程。…

SpringBoot2 集成xJar插件 动态解密jar包,避免源码泄露或反编译

文章目录一、集成1. 官方介绍地址2. 添加仓库和插件3. 编译打包二、安装go环境和编译2.1. 安装go2.2. 编译三、运行3.1. 正常运行3.2. 二次加密运行3.3. 测试结果四、IntelliJ IDE 反编译测试4.1. 将加密的jar进行解压4.2. 打开解压后的文件夹4.3. class文件查看4.4. 配置文件反…