TarGAN
- 核心思想
- 网络结构
核心思想
论文:https://arxiv.org/abs/2105.08993
代码:https://github.com/2165998/TarGAN
-
解决的问题:传统多模态医学图像转换通常,在生成高质量图像方面存在问题,特别是在关键目标区域或兴趣区域(ROI)如特定器官等。这些图像可能模糊、变形或包含不现实的纹理。
-
TarGAN的特色:
- 无需配对数据的多模态图像转换学习:TarGAN 能够学习多模态医学图像的转换,而不依赖于成对的数据,毕竟获取成对的多模态医学图像(如CT和MRI图像)成本高且困难
- 借助目标区域标签提高目标区域生成质量:TarGAN 通过特定的目标区域标签,来增强图像中关键部位的生成质量,同时保持整体图像质量。
这是通过将全局和局部映射整合到,一个跨损失(crossing loss)中实现的。
- 创新点:
- 双层次映射学习:TarGAN 的生成器同时学习两种映射 —— 整体图像转换映射、目标区域转换映射。
- 交叉损失:这两种映射通过交叉损失相互关联,以优化目标区域的转换效果。
关键方法 - 跨损失(Crossing Loss):这是一个新颖的概念,它允许模型在转换整个图像时同时专注于目标区域。
这样做可以显著提高目标区域的图像质量,而不会牺牲整体图像的质量。
网络结构
双输入-输出流的生成器,结合多种损失函数
- 双输入-输出流:允许同时处理整体图像和目标区域的转换。
- 使用循环一致性损失(cycle-consistency loss)、形状一致性损失(shape-consistency loss)和跨损失(crossing loss)来优化生成的图像质量,优化生成图像的质量。
对应上图:
-
生成器结构(图a):生成器G的结构,它包括两个编码器(Encoder_s, Encoder_t)和两个解码器(Decoder_x, Decoder_r),以及一个共享模块(Shared Block)。
生成器接收源模态图像xs和对应的目标区域图像rs,这两个输入通过深度级联(Depth-wise concatenation)与目标模态标签t结合。
共享块使得生成器能够在转换整体图像的同时也专注于目标区域。
-
TarGAN框架(图b):这部分展示了整个 TarGAN 框架,包括四个主要模块:生成器G,形状控制器S,以及两个判别器 Dx 和 Dr。
生成器 G 负责将源图像 xs 和目标区域图像 rs 转换为目标模态图像 xt 和 rt。
形状控制器 S 生成一个二进制掩码以表示合成图像的前景区域。
判别器 Dx 和 Dr 分别判断整个图像和目标区域图像是否真实,以及它们来自哪种模态。
整个框架使用多种损失函数来训练和优化:
- 对抗损失( L a d v − x 和 L a d v − r L_{adv-x} 和 L_{adv-r} Ladv−x和Ladv−r)
- 形状一致性损失( L s h a p e − x 和 L s h a p e − r L_{shape-x} 和 L_{shape-r} Lshape−x和Lshape−r)
- 重建损失( L r e c − x 和 L r e c − r L_{rec-x} 和 L_{rec-r} Lrec−x和Lrec−r)
- 模态分类损失(实际图像的 L c l s − x r 和 L c l s − r r L_{cls-x}^{r} 和 L_{cls-r}^{r} Lcls−xr和Lcls−rr,合成图像的 L c l s − x f 和 L c l s − r f L_{cls-x}^{f} 和 L_{cls-r}^{f} Lcls−xf和Lcls−rf)
- 交叉损失( L c r o s s L_{cross} Lcross)
这些损失函数共同工作,帮助模型在转换图像时保持目标区域的特征,同时也保证整体图像的质量。
每一行代表一种模态到其他模态的转换:
- 第一行显示的是CT 到 T1w和T2w的转换
- 第二行显示的是T1w 到 T2w和CT的转换
StarGAN 和 CSGAN 、ReMIC 方法在某些转换中引入了额外的纹理(红框标记)和结构变形(蓝框标记)。
StarGAN:
- 不适用于CT到T1w的图像转换,因为它在MRI到CT转换中产生许多伪影。
- 原因 - StarGAN在处理不同模态间的复杂转换时存在局限性。
CSGAN:
- 在目标区域有时会添加多余的纹理,但保留目标形状。
- 原因 - CSGAN在保留形状的同时,可能会在纹理细节上过度处理。
ReMIC:
- 能够生成相对真实的合成图像,但在大多数情况下会改变目标区域的结构。
- 原因 - ReMIC在追求图像真实性时,可能会牺牲目标区域的结构完整性。
TarGAN:
-
生成高视觉质量的翻译结果,并妥善保留目标结构。其提出的交叉损失有助于联合学习目标区域和整个图像的映射,从而提高目标区域的质量。
-
原因 - TarGAN通过交叉损失在不同模态之间学习,同时专注于改善目标区域,从而在综合性能上优于其他方法