SimpleITK使用深度学习识别肺癌CT DICOM数据集

肺癌数据集DICOM :https://wiki.cancerimagingarchive.net/display/Public/LIDC-IDRI

 

首先用SimpleITK把mhd图片读入,对每个切片使用Gaussian filter然后使用阈值-600把肺部图片二值化,然后再分析该切片的面积,去掉面积小于30mm2的区域和离心率大于0.99的区域,找到3D的连通区域。

只保留0.68L到8.2L体积的区域,并且如果大于6000 mm2的区域到切片的中心区域的距离大于62mm也删除该连通区。最后只留下一个最大的连通区域。

左边是原始图,右边是切完肺的。

在实际中预处理中,我们可视化了每个肺的部分切片,存在一些bad case。主要有以下3种,我们也对这3种情况做了优化:

  1. 把肺边缘结节切掉。因为阈值导致的,把二值化环境-600改成-150有改善。
  2. 切出来全部为黑的(未找到任何肺部区域)。有些ct图是从头部开始扫描的,导致影响了连通区域判断,需要手动查看该mhd文件,看里面的从第个切片到第几个切片是肺部,在做完二值化操作后,人为把前面和后面的切片全部设置为0。
  3. 切出来只有一侧肺部情况。

有些患者两个肺的大小差别比较大,需要调整阈值,放宽阈值标注,把大于6000 mm2的区域到切片的中心区域的距离大于62mm也删除该连通区,改为大于1500 mm2的区域到切片的中心区域的距离大于92mm也删除该连通区。并且在最后一步,不只保留最大的连通区,同时保留最大的两个连通区。

2.模型网络结构

我们的网络如图所示,整体上是采用Unet+Resnet的思想。里面每个Resnet Block都是由多个卷积层和bn层和relu层组成的。我们只展示主体结构(整体深度大概150多层):

 

3.整体优化思路

3.1 数据优化

  1. 肺部切割优化:这块其实没有完美的方法能把所有的肺一次性都切好。具体的思路我们已经在第1章数据预处理部分写出来了:我们会先切一遍,然后将切肺中切的不好的,再调参数重新切一次。
  2. 10mm 以下结节的训练数据增强。我们在没做数据增强的情况下跑出来的模型,在验证集上漏掉了不少10mm以下的结节,所以对这部分的结节做了增强。

3.2 工业界优化思路:模型架构 > 模型网络

我们的优化思路非常的工业界,用更多的计算资源,和更复杂的模型架构,并不把大量的时间用在调模型网络上面。

3.3 层次化Hard Mining

业界两套网络的做法比较普遍,比如用Unet切割或Faster RCNN检测,用3D CNN分类,如下图所示。

 

我们用的是如下统一的一套模型架构,即3D Faster RCNN的RPN网络,没有后续的全连接做分类,也并没有

再在后面接一套3D CNN来做降假阳。能减少需要调节的网络参数。

 

该hard mining的过程,其实就是用上一层的模型作为下一层的输入,每一层的训练数据都选取比上一层更难分的。

 

 

这套架构,无需2套网络,只需要选择一套较深的网络。

根据我们的经验,采取层次化模型训练,第二层模型froc能比第一层效果提升0.05,第三层能比第二层提升0.02。

3.4 LOSS 函数的设计

在计算loss函数的时候,我们做了2点优化。

1.在使用hard mining的时候,每个batchsize里面负例的个数会明显多于正例。为了防止算loss的时候被负例主导。我们将loss函数分成3个部分,负例的loss,正例的loss和边框的loss。

2.在上一节提到的层次化hard mining,我们在最后一层训练模型的时候,会修改loss函数的计算,对于分错的负例和正例,做加权。这个思路和focal loss是很像的。

比如:

红框里面的部分,本来是负例,却以很大的概率被分成正例,这部分在算loss的时候权值就大些。红框外面的部分权值就小些。

 

4.本次比赛的关键点总结:

1) 解决了基于Intel extended Caffe的150多层深度网络的 3D Faster RCNN RPN网络收敛问题。

可以从2个方向来解决(线下Phi卡平台均已验证过)。

a)将 drop out设置为 0.1。缺点是会容易过拟合。

b)先训练一个crop size为32的模型

用这个模型做pre train model,训练crop size 64的模型

依次类推。

直到完成crop size为128的模型训练

由于时间关系,我们并未比较这2种思路的效果。比赛中使用的是第1个思路,收敛的更快些。

2) 提出层次化Hard Mining的训练框架。并没有采用常见的,unet做分割+3D CNN降假阳 或者 2d faster rcnn做检测+3D CNN降假阳的思路。我们只用了一套网络。减少了需要调节的网络参数。

3) 重新设计了loss函数,防止负例主导loss的计算, 并且在降低loss的过程中,更聚焦于分错的训练样本。

5. 经验总结:

我们团队虽然过往深度学习架构经验多,但对医学影像处理的know how属于尚在探索之中。所以,我们的优化思路,是用更多的计算资源,和更复杂的模型架构,来弥补没有专用模型网络积累的短板。在第一轮比赛时通过调用比较充足的计算资源时效果比较显著,但在第二轮限定计算资源的多CPU的框架上,比较受限于计算资源及时间。

在计算资源比较充沛的情况下,选取比较深的Resnet效果会明显。在资源受限的实际场合或者现实的生产环境,我们有两点启发:

  1. 学会认同重复造轮子的基础性工作。第一轮比赛我们是pytorch框架,第二轮按要求在caffe上实现,特别是在Intel Extended Caffe对3D支持有限,重写了不少很基础的模块,这种貌似重复造轮子的工作,对我们提出了更高的要求,但也锻炼了我们深入到框架底层的能力,从而对不同框架的性能特点有更深的认识,这种重写甚至还因此帮我们找到我们第一版pytorch代码里detect部分存在的一个bug。
  2. 根据资源灵活优化训练策略乃至模型。我们的3D Faster RCNN 初期在Extended Caffe 上过于耗时,但因为在计算资源充足环境下我们的做法比较有效,所以没有去考虑一些更快的检测算法,比如SSD、YOLO等,这点也算是路径依赖的教训了。

代码开源说明:

我们在GitHub (https://github.com/YiYuanIntelligent/3DFasterRCNN_LungNoduleDetector ) 开源了核心代码,特别是将我们基于Intel Extended Caffe的3D Faster RCNN RPN训练模块发布到社区,相信这也是业内首个Intel extended Caffe版的150层网络3D Faster RCNN开源,希望对Intel 的深度学习社区用户有帮助。

该代码对医学影像的处理也展示了有效性,相信对医学影像领域AI实践的发展,对技术如何造福大众,能起到一些帮助。

通过开源,希望有同行提出性能优化、功能扩充等的修改建议,互相促进。

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/547355.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

MemCache在win7上的可视化配置以及Nodejs/Net应用

惯例科普:MemCache是一套分布式的高速缓存系统,由LiveJournal的Brad Fitzpatrick开发,但目前被许多网站使用以提升网站的访问速度,尤其对于一些大型的、需要频繁访问数据库的网站访问速度提升效果十分显著。这是一套开放源代码软件…

Redis在win7上的可视化应用

Redis是一个key-value存储系统。和Memcached类似,它支持存储的value类型相对更多,包括string(字符串)、list(链表)、set(集合)、zset(sorted set --有序集合)和hash(哈希类型)。这些数据类型都支持push/pop、add/remove及取交集并…

全网最详细的docker配置nginx http2 优化高速访问

Nginx 从 1.13.9 版本开始加入了 HTTP/2 的 Server Push 功能,本文将介绍如何在 Nginx 下实现 HTTP/2 服务器推送 (Server Push) 。这里我们首先用 Docker 搭建一个支持 HTTP/2 的 Server Push 功能的 Nginx 容器并加入 SSL 证书。如果你还不会 Docker,可…

CentOS安装运行NodeJS框架Express

安装依赖包 yum -y install gcc make gcc-c openssl-devel wget 下载/解压NodeJs wget http://nodejs.org/dist/v0.12.7/node-v0.12.7.tar.gztar -zvxf node-v0.12.7.tar.gz 编译及安装,逐行执行 cd node-v0.12.7./configuremake install 验证是否安装配置成功&…

android点滴27:R文件无法加载 R cannot be resolved to a v...

2019独角兽企业重金招聘Python工程师标准>>> 导致这个问题原因可能有二个:1. manifest文件中的包名和真正的报名不统一 2. 在java文件中导入了R文件,在java文件中无需导入任何包的R文件,系统会自动加载gen目录下的R文件。 转载于…

MITK医学Python开发入门详细版

1.关于MITK: MITK的全称是”The Medical Imaging Interaction Toolkit”。它是一款开源的交互式医学图像处理软件开发和应用平台。MITK将ITK和VTK整合为一个应用框架。该软件由德国一个研究室开发。官网地址为:http://mitk.org/wiki/MITK 。 与MITK同名…

服务器系统上1068错误,错误1068,详细教您启动网络服务错误1068怎么解决

在电脑中,通常开机后就会自动连接网络宽带,不过有用户遇到问题。开机后网络图标显示红叉或者图标正常无法上网,打开网络和共享中心才发现是服务或者组无法启动,启动时显示错误1068,这该怎么办?下面&#xf…

NodeJs连接Oracle数据库

nodejs连接oracle数据库,各个平台的官方详情文档:https://github.com/oracle/node-oracledb/blob/master/INSTALL.md 我的nodejs连接Oracle的配置,运行环境: windows7 x64 nodejs 0.12.7 Python 2.7.10 npm 2.11.3 运行原理分析 npm调…

maven实现多模块热部署

2019独角兽企业重金招聘Python工程师标准>>> 一、背景 基于maven的项目工程都会按模块划分,每个模块最终形成一个jar包,那么每次对模块的修改就需要重新打包,这样的工作重复而繁琐,以前的热部署解决方案都是只针对web…

鲲鹏服务器php性能,对鲲鹏服务器的内存进行性能优化后的前后数据对比

测试的鲲鹏服务器是96核2numa节点,内存测试用的是Imbench里面的stream。优化说明,bios和绑核优化后性能提升明显,编译参数优化后性能提升不明显可以根据情况是否进行编译优化1、Bios修改:进入bios,在Advanced中进入Memory Config界…

手机投屏时电视显示服务器有问题,小屏变大屏,手机投屏这几招你学废了么?...

马上七夕了,又恰逢周末不想去电影院凑热闹的人可以在家看电影、追剧但是小屏看剧一点也不爽何不投放到电视上饱览大视野呢我们可以借助“投屏”功能痛痛快快在电视上观看想看的剧集和电影那么如何通过手机,将内容传送到智能电视上呢那么接下来为大家介绍…

分类算法之决策树介绍

实习了一段时间,接触了一些数据挖掘、机器学习的算法,先记录下来方便以后的复习回顾: 一:决策树概念 决策树可以看做一个树状预测模型,它是由节点和有向边组成的层次结构。树中包含3中节点:根节点、内部节点…

C#调用Couchbase中的Memcached缓存

安装服务端 服务端下载地址:http://www.couchbase.com/download 选择适合自己的进行下载安装就可以了,我这里选择的是Win7 64。 服务端安装完后,如果成功了,那么在浏览器中可以看到。如果没有那么需要手动进行访问http://localhost:8091/ind…

Windows10安装Anaconda和Pytorch(CPU版,无GPU加速)

1.Anaconda安装 Anaconda的安装网上的教程非常非常多,很简单,下面这篇博客写的很详细,看我写的也可以。 地址:https://blog.csdn.net/u014546828/article/details/80334448 注意:不建议从 官网下载,官网…

云计算的发展及应用--演讲用PPT

最近在几个客户处进行了关于云计算的普及培训。主要是让用户了解什么是云计算,云计算的框架以及对我们的影响。我将自己手中的几本相关资料,结合自己的经验和理解,整合成了一篇演示用的PPT。 虽然演示用的PPT简洁些,但用来理解一下…

nodejs Error: request entity too large解决方案

错误如图: 解决方案: app.js添加 var bodyParser require(body-parser);app.use(bodyParser.json({limit: 50mb}));app.use(bodyParser.urlencoded({limit: 50mb, extended: true}));

閱讀10大優點:為什麼你應該每天閱讀

閱讀10大優點:為什麼你應該每天閱讀當是你最後一次讀一本書,或主要雜誌上的文章?你的日常的閱讀習慣圍繞推特,Facebook的更新或速溶燕麥片包上的指示?如果你是其中之一,無數的人誰不經常閱讀的習慣&#xf…

Node出错导致运行崩溃的解决方案

许多人都有这样一种映像,NodeJS比较快; 但是因为其是单线程,所以它不稳定,有点不安全,不适合处理复杂业务; 它比较适合对并发要求比较高,而且简单的业务场景。 在Express的作者的TJ Holowaychuk…

nodejs基于art-template模板引擎生成

基础核心代码 var template require(art-template);var tName new Date().getTime();var htmlT <!DOCTYPE html><html lang"en"><head><meta charset"UTF-8"><title></title></head><body><h1>{…

Pyalgotrade量化交易回测框架

现在就开始干活了。先要测试一下pyalgotrade回测数据对不对。我找了个参照标准:在聚宽上开通了个账号&#xff0c;按入门教程写了个策略:2016-2018年每个交易日买入100股平安银行(000001)&#xff0c;回测结果如下: 现在用pyalgotrade来实现一下这个策略。先用tushare下载平安银…