论文:Medical Image Segmentation Using Deep Learning: A Survey
参考:[医学图像分割综述] Medical Image Segmentation Using Deep Learning: A Survey-CSDN博客
一、背景
- 特征表示的困难:模糊、噪声、对比度低--->CNN
- 属于语义分割(对图像进行像素分类)的范畴:
-
语义分割(Semantic Segmentation):语义分割的目标是将图像中的每个像素分配到一个类别。它关注的是类别,而不区分同一类别中的不同个体。例如,在一幅街景图像中,语义分割会将所有的“车”像素标注为“车”类别,而不区分这些车是不同的个体。
-
实例分割(Instance Segmentation):实例分割不仅将每个像素分配到一个类别,还要区分同一类别中的不同个体。它结合了目标检测和语义分割的特点。例如,在一幅街景图像中,实例分割不仅会标注出所有的“车”,还会区分这些车是不同的个体,给每辆车一个唯一的标识。
-
二、监督学习
1.网络骨干
1)U-Net
参考:U-Net网络结构讲解(语义分割)_哔哩哔哩_bilibili
通过跳跃连接,将低分辨率和高分辨率的特征图结合起来,有效地融合了低分辨率和高分辨率的图像特征。
2)3D-Net
全篇为[医学图像分割综述] Medical Image Segmentation Using Deep Learning: A Survey-CSDN博客的笔记~
3D U-Net仅包含3次下采样,不能有效提取深层图像特征,导致医学图像分割精度有限。与3D-UNet相比,V-Net利用残差连接设计更深层次的网络(4次下采样),从而获得更高的性能。
3)RNN
- 图像序列时间依赖性
- 通过将输入特征图直接添加到经过卷积和激活函数处理后的特征图中,模型可以更有效地传递信息,避免梯度消失问题。
- 从图中可以看到,卷积层和激活函数的输出会回馈到自身,并且重复进行多次。这种循环结构使得模型可以通过多次迭代来逐步精炼特征,从而提高分割的精度和效果。
- 残差连接通过直接将输入特征图添加到经过多次卷积和激活后的特征图中,使得梯度在反向传播过程中能够更有效地传递,减轻梯度消失问题,提升深层网络的训练效果。
- 梯度消失问题会导致在反向传播过程中,梯度变得非常小,以至于模型无法有效地学习和更新参数。
- RNN可以通过考虑上下文信息关系来捕获图像的局部和全局空间特征。
4)SKip Connection
- 跳跃连接:低分辨率和高分辨率特征之间语义鸿沟较大的问题,导致特征映射模糊
- MultiResUNet:使编码器特征在与解码器中相应特征融合之前执行一些额外的卷积操作
5)Cascade of 2D and 3D (级联模型)
- 训练两个或多个模型来提高分割精度
- 粗-细分割:使用两个2D网络的级联进行分割,其中第一个网络进行粗分割,然后使用另一个网络模型在之前的粗分割结果的基础上实现细分割,这种级联网络利用第一个网络产生的后验概率比普通级联网络能有效地提取更丰富的多尺度上下文信息。
- 混合分割(H-DenseUNet):首先利用简单的ResNet获得粗略的肝脏分割结果,利用二维DenseUNet有效提取二维图像特征,然后利用三维DenseUNet提取三维图像特征,最后设计一种混合特征融合层,对二维和三维特征进行联合优化。
- 处理模糊噪声边界(Ki-Net):通过在编码器的每一转换层之后加上上采样层来实现。利用Ki-Net的低层精细边缘特征图和U-Net的高层形状特征图,不仅提高了分割精度,而且对小解剖标志和模糊的噪声边界实现了快速收敛。
2.网络块
1)Dense Connection(密集连接)
- 改进一
- 每一层的输入来自前面所有层的输出
- 用密集连接的形式来代替U-Net的每个子块
- 低了特征表示的鲁棒性,增加了参数的数量
- 改进二
- 优点:允许网络自动学习不同层次特征的重要性
- 具有不同语义尺度的特征可以在译码器中聚合
- 增加了参数的数量(剪枝方法)
2)Inception(多种卷积核大小的并行路径)
- 深度网络:梯度消失、网络收敛困难、内存占用大等
- 不增加网络深度的情况下并行地合并卷积核,从而获得更好的性能
- 利用多尺度卷积核提取更丰富的图像特征,并进行特征融合,获得更好的特征表示
- 比较复杂,导致模型修改困难
3)Depth Separability (深度可分离)
- 减少对内存的使用需求--->轻量级网络
- 普通卷积的参数:,其中为卷积核大小,为输入特征的维数,为输出特征的维数:
- 逐通道卷积、逐点卷积
- 逐通道卷积:
- 逐点卷积:
4)Attention Mechanism(注意力机制)
- 掩码:设计一个新的层,通过训练和学习,可以从图像中识别关键特征
- 局部空间注意力(Local Spatial Attention):计算每个像素在空间域中的特征重要性,提取图像的关键信息
- 通过1 × 1卷积结合Relu和Sigmoid函数,生成一个权值映射,并通过与编码器的输出特征相乘进行校正
- 个人理解:Q:输入编码器的内容,K/V:编码器的输出特征
- 通道注意力(Channel Attention):利用学习到的全局信息,选择性地强调有用的特征
- 压缩操作,对输入特征进行全局平均池化,得到1 × 1 × channel的特征映射
- 激励操作,通过通道特征的相互作用来减少通道数量,然后将减少的通道特征重构回信道数量
- 使用sigmoid函数生成[0,1]的特征权重映射,将比例乘回到原始输入特征
- 混合注意力(Mixture Attention):
- 空间注意力忽略了不同通道信息的差异,对每个通道都一视同仁
- 通道注意力直接集中全局信息,而忽略每个通道的局部信息
- 多种基于混合注意力块的模型
- 以通道为中心的注意力是提高图像分割性能最有效的方法
- 非局部注意力(Non-local Attention):
- 等于自注意力机制
- 与非局部注意相比,传统的注意力机制缺乏挖掘不同目标和特征之间关联的能力
5)Multi-scale Information Fusion(多尺度信息融合)
- 目标尺度的大范围变化:中晚期的肿瘤可能比早期的大得多
- 金字塔池化(Pyramid Pooling)
- 多尺度池化的并行操作
- 残差多核池化(RMP):使用四个不同大小的池化核来编码全局上下文信息
- 上采样操作不能恢复细节信息的丢失,因为池化通常扩大了感受野,但降低了图像分辨率。
- 空洞空间金字塔池化(Atrous Spatial Pyramid Pooling)
- 用空洞卷积
- 两个问题:局部信息的丢失;这些信息在远距离传播后可能是不相关的
- 非局部和ASPP(Non-local and ASPP)
- 不同尺度的多个并行空洞卷积来捕获更丰富的信息
- 非局部操作捕获广泛的依赖关系
三、损失函数的设计
1.Cross Entropy Loss(交叉熵)
- 将预测的分类向量与实际的分割结果向量进行像素级的比较
-
第一项 :
- 当真实标签 Y 为1时(即 p=1),这项起作用。如果预测概率也接近1,这项的值会很小。
- 如果远离1,这项的值会增大,表示模型的预测错误较大。
-
第二项:
- 当真实标签 Y 为0时(即 p=0),这项起作用。如果预测概率也接近0,这项的值会很小。
- 如果远离0,这项的值会增大,表示模型的预测错误较大。
- 公式:
2.Weighted Cross Entropy Loss
- 交叉熵损失对图像的每个像素都进行同等处理,从而输出一个平均值,忽略了类的不平衡
-
β用于调整正样本和负样本的比例,它是一个经验值,如果β > 1,假阴性数量减少;反之如果β<1,假阳性数量减少
- 添加距离函数改进交叉熵损失函数的U-Net,改进后的损失函数可以提升类间距离的学习能力
-
其中 和代表了像素和前两个最近单元格边界之间的距离
-