UNeXt: a Low-Dose CT denoising UNet model with the modified ConvNeXt block

UNeXt：采用改进的ConvNeXt块的低剂量CT去噪UNet模型

在这里插入图片描述

论文链接：https://ieeexplore.ieee.org/document/10095645

项目链接：没找到

Abstract

近几十年来，临床医生广泛使用计算机断层扫描(CT)进行医学诊断。医疗辐射有潜在危险，因此需要减少CT扫描中的射线辐射。然而，辐射剂量的减少会导致噪声和伪影的增加。本文采用基于UNet的卷积神经网络(CNN)新架构对低剂量CT图像(LDCT)进行去噪，并与正常剂量图像(NDCT)进行对比。多特征提取块(multi-feature extraction block，MFEB)在不同的接受域中获取额外的特征。提出了改进的CT图像ConvNeXt块(CTNeXt)，用于提取不同尺度的不同特征数据。此外，我们引入图像重构块，逐步合并群卷积的特征信息，并消除特征之间的间隙，以简化后续阶段多尺度信息的传输。通过vgg16-net，利用均方误差(MSE)、平均绝对误差(MAE)和对比损失的积分对网络进行优化。结果表明，该方法能有效地防止边缘过度平滑，改善图像纹理，保留图像结构细节。对所提出网络的比较分析表明，我们的方法优于最先进的去噪模型，如Wasserstein生成对抗网络(WGAN-vgg)和残差卷积编码器-解码器(RED-CNN)。

I. INTRODUCTION

计算机断层扫描在医学上被放射科医生广泛用于检测和监测异常，如癌症、肺结节和内伤。然而，CT扫描时的X线暴露可能对患者造成伤害[1]。X射线剂量的减少会导致重建图像中的噪声和伪影增加，从而降低诊断能力。降低CT剂量的降噪方法受到了广泛的关注，目前提出了许多提高低剂量CT (LDCT)图像质量的算法。一般来说，存在以下三个领域：a) Sinogram domain filtering，b) Iterative reconstruction (IR)，以及c)后处理和深度学习技术。

近年来，深度学习方法在计算机视觉和医学图像领域得到了迅速发展。例如，Chen等人[2]的论文是一项杰出的工作，该论文应用卷积神经网络(CNN)结构对残差编码器(RED-CNN)进行建模，通过有效地降低背景噪声和伪影，可以生成高质量的图像。该网络采用最小均方误差作为损失函数，最小均方误差可以得到损失的详细信息。然而，与此同时，对人眼感知至关重要的图像纹理受到了限制。因此，研究人员开发了先进的算法来寻找物体的边界并提取图像的边缘特征。在Gholizade等人[3]的研究中，作者提出了一种边缘检测层，采用Sobel核作为不可训练滤波器，防止纹理细节被模糊。熊章等[4]提出了一种人工和详细注意生成对抗网络(ADAGAN)，通过多通道训练生成器补充边缘特征来确定轻微的感受野损伤，缓解过度平滑问题。Wang Dayang等[5]提出了一种无卷积的扩展视觉变压器(ViT)用于CT去噪，它通过扩展和移位特征映射来捕获更远距离的相互作用。尽管最近的视觉表示学习模型，如ViT[6]和Swin Transformer[7]，在CT去噪方面有了一定的改进[8]-[13]，但区分噪声并保持特征结构仍然是一个挑战。为了解决上述问题，我们提出了一种嵌入改进的ConvNeXt[14]块(UNeXt)的UNet模型，用于LDCT去噪任务。在本文中，我们的贡献有三个方面；

将去噪过程分解为一系列阶段，进行LDCT去噪，发现小尺度特征的输入信息。在去除噪声的同时保持上下文信息。
为了提取低、高层LDCT特征信息，提出了一种改进的ConvNeXt残差块(CTNeXt)，该残差块在可调多核群Conv层周围有两个1x1 Conv层。在Unet中嵌入具有不同深度的多尺度Conv层的CTNeXt，以消除不同阶段特征数据之间的差距。
提出了图像重构块(IRB)，用于学习提取的数据特征在多尺度上重构高质量的数据。以同样的方式，使用跳跃连接来融合特征细节，以开发具有低水平特征数据的更明确的去噪CT图像。

本文的其余部分安排如下：第二节讨论了网络结构、实验设置和目标函数结构;在第三节中，描述了实验的定量和可视化结果;第四节是结束语。

II. METHODS AND EXPERIMENT

临床诊断可能会受到低剂量CT图像中的噪声和伪影的影响。在图像重建过程中，LDCT图像中的噪声非常复杂，分布在整个图像上。深度学习算法可以学习进化的特征及其描述数据分布和去除噪声的能力。本研究采用基于深度学习的LDCT去噪方法，通过设计复合损失函数来减小去噪后的图像与真实图像之间的差距。我们提出的去噪模型包括三个主要模块：a)浅特征提取，b)主特征提取，c)图像重建。

A. 浅层特征提取

图1(a)显示了我们提出的整体UNeXt架构。作为网络的输入，拥有更全面的数据将有助于提高降噪性能，获得高质量的图像。浅层特征提取块在去噪前使用Sobel和多特征提取块(MFEB)提取图像特征信息，并将其传输到1×1卷积层中，以建立下一步的特征映射数量。从图1(a)，可以看出每个MFEB包含三个独特的并排卷积。

Sobel边缘滤波器可以应用于图像提取边缘或高频信息[15]。我们通过在垂直、水平和对角方向上定位固定加权卷积核，在网络中添加了一个Sobel层。首先，将它们依次应用，然后与原始图像融合。近年来的研究表明，边缘检测层提高了网络的整体性能。此外，Sobel层可以提高计算性能，降低网络的复杂性。

3×3卷积核中有限的感受野是提取CT图像中所有有价值和精确的小范围病变信息的障碍[16]。为了获得更好的上下文和纹理信息，应该增加核大小[17]。由于不同感受野的多特征提取是至关重要的，并且会影响去噪图像的质量，因此我们在所提出的网络中使用群卷积放置MFEB，从而在更少的参数下获得更全面的图像表示。

B. 主要特征提取

我们提出的去噪网络的主要部分是主要特征提取，它类似于称为UNeXt的标准UNet，包括一个编码器和一个解码器，均匀地位于架构的两侧。UNet的优点之一是通过编码器部分和相应的解码器部分引入了远距离连接，从而可以将编码器的特定层次特征合并到解码器中，使网络更加精确和可扩展。此外，我们的大量实验表明，提高图像质量重建。

在本文中，我们受到[14]的启发，提出了自适应CTNeXt块，该块使用了ConvNeXt块。作者的工作是使标准CNN的架构现代化，以构建分层的ViT，这使得ConNeXt块比ViT简单得多。它包括一个7×7深度卷积和两个1×1层。此外，在卷积层之前识别了一个非线性GELU激活函数和一个层归一化(LN)。

由于CT图像通常包含小尺度病变和背景信息，一个7×7卷积核不足以提取重要和精确的特征。所提出的自适应CTNext总体示意图如图1(b)所示。在该块中，从原始设计中去掉深度卷积层，使用不同核大小的连续卷积层。虽然增加卷积核的数量可以提高图像质量，但它给网络施加了许多参数。因此，我们引入群卷积，在不影响输出图像质量的情况下，有效地减少参数，节省计算时间。根据适当的特征分辨率设置不同的组大小(G)和卷积核数。

如图1(d)所示，在主要特征提取部分的开始部分和结束部分分别采用了补丁嵌入和补丁合并。基于最近的研究，补丁嵌入在计算机视觉中是一个令人印象深刻的指南，它将增加感受野的大小有效性，使融合远维信息变得简单。我们使用步长为4、核大小为4的标准卷积来实现这个块。

在3×3 stride-2卷积(SConv)降尺度和3×3转置卷积(TConv)升尺度过程的中间，为每个尺度定位统一跳跃连接。每个块从第一比例尺到第四比例尺的特征图分辨率分别为56×56、28×28、14×14和7×7。此外，从图1(d)中可以发现，卷积核大小随特征信息的类似变化，从第1阶段到第4阶段，阶段数略有下降，从第4阶段到第7阶段，阶段数逐渐上升。阶段1、2、6和7包含5×5、7×7和9×9一系列群卷积。以同样的方式，第三和第五阶段包括7×7和9×9组卷积，以获得高质量数据的高频环境特征。此外，卷积5×5参与了网络bottleneck层的第四阶段。

在这里插入图片描述

C. 图像重建块(IRB)

引入图像重构块(IRB)来提取确定的特征数据。该模块通过引导各种尺度和层次的最合适的特征，最大限度地减少重建CT图像与ground truth图像之间的差距。如图1©所示，我们通过CTNeXt阶段1的三层提取高频特征。然后，我们使用GeLU激活函数对组合的高频特征进行非线性变换。一旦最后阶段完成，获得的图像将通过3×3卷积移动。

D. 实验设置和数据集

为了优化整个网络，提出了三种损失函数的组合，包括：1)均方误差(MSE)， 2)平均绝对误差(MAE)， 3)对比损失(Closs)如下：
$\begin{align} &L_{MSE}=\frac{1}{N}\sum_{i=1}^{N}\lVert\hat{y}_{i}-x_{i}\rVert^{2} \tag{1}\\ &L_{MAE}=\frac{1}{N}\sum_{i=1}^{N}\lVert\hat{y}_{i}-x_{i}\rVert \tag{2}\\ &Closs=\frac{1}{N}\sum_{i=1}^{N}\begin{Vmatrix}\phi(\hat{y}_{i})-\phi(x_{i})\end{Vmatrix} \tag{3} \end{align}$

${∥.∥}^2$ 表示L1和L2距离损失，其中 $\phi$ 定义了预训练的vgg16网络在LDCT和目标图像对之间生成的特征映射 $(x_i, y_i)^N_{i=1}$ 。为了保持纹理细节并消除去噪图像 $\hat{y}$ 的条纹伪影，我们在所提出的损失结构中提出了最新的Closs[18]，其有效性已通过提高重建图像的质量得到证明。

作为训练和测试数据，我们使用“2016 AAPM低剂量图像挑战”数据集[19]来证明我们的模型对LDCT图像去噪的能力。该数据集由10例患者的腹部骨盆CT图像对组成，包括5936张全剂量图像和2378张相同大小512×512的1/4剂量CT图像。我们使用交叉验证技术将原始数据集划分为十个大小相等的子集，以提高网络性能。然后，使用单个子集作为测试集，其余数据用作训练集。此外，为了增加训练图像的数量，我们对有限数量的CT图像应用了224×224patch块随机作物提取策略。

III. ABLATION STUDY AND COMPARATIVE RESULTS

我们的工作结果与该领域两种知名的网络模型RED-CNN[2]和WGAN-vgg[1]进行了比较和评估。从测试数据集中随机选择两幅图像的结果如图2所示。从图2可以看出，尽管RED-CNN在去除伪影方面更好，但WGAN-vgg在保留细节方面更出色。同时，我们提出的模型能够在保留结构信息的同时显著地抑制噪声。我们还对网络结构进行了消融实验。在第一个实验中，我们用3×3标准卷积替换了MFEB块，并删除了IRB块。在另一个实验中，我们用3×3标准卷积替换了CTNeXt块。

在这里插入图片描述

此外，通过评估PSNR和SSIM指标，我们进行了广泛的实验，以确定所提出网络中适当的堆叠层数。对比图3和表1中不同去噪模型的结果，我们提出的模型取得了更好的效果。我们还在单独的实验中对UNeXt进行了损失组合训练，以评估所提出的复合损失函数的有效性。从图3(f)可以看出，加入Closs后，去噪后的图像质量得到了很大的改善。

在这里插入图片描述

IV. CONCLUSION

本研究表明，通过对不同核大小的CNN进行融合和连接，构建多特征图，可以提高去噪后重建的低剂量CT图像的信噪比。使用群卷积和跳跃连接(CTNeXt网络的基本块)也提供了一种有效的方法来降低计算复杂度和成本。总之，所提出的改变使我们的网络成为一个简单而有能力的去噪模型。我们还展示了所提出模型中使用的每个目标函数的贡献，例如用于改善感知视觉的对比度损失和用于增强图像质量的MAE损失。未来的工作应该集中在推广身体其他区域的图像，如头部，腹部和骨盆的CT方法。此外，我们正在考虑将注意力层嵌入到网络中，以研究其提高网络性能的潜力。