LViT: 语言与视觉Transformer在医学图像分割中的应用| 文献速递-深度学习结合医疗影像疾病诊断与病灶分割

Title

题目

LViT: Language Meets Vision Transformer in Medical Image Segmentatio

LViT: 语言与视觉Transformer在医学图像分割中的应用

01

文献速递介绍

医学图像分割是医学图像分析中最关键的任务之一。在临床实践中,准确的分割可以帮助医生诊断疾病,指导治疗方案的制定。然而,现有的医学图像分割模型在使用高质量标记数据方面存在挑战,这主要是由于标记数据的获取成本高昂。为了解决这一挑战,我们提出了一种新的文本增强医学图像分割模型LViT。在LViT模型中,我们采用了混合的CNN-Transformer结构,并设计了像素级注意力模块(PLAM),这样可以更好地整合文本信息,同时保留CNN从图像中提取局部特征的能力。为了解决第二个挑战,我们设计了一种指数伪标签迭代机制(EPI),旨在逐步改进伪标签,并间接地利用文本信息来优化伪标签。此外,我们设计了LV(语言-视觉)损失,以直接利用文本信息来监督未标记医学图像的训练。为了验证LViT的性能,我们构建了三个多模态医学图像分割数据集,包含CT图像和X射线图像。实验结果表明,LViT在不同数据集上均取得了优异的分割性能,即使仅使用了部分训练集标签,也能获得与全监督方法相当的性能。

Abstract

摘要

Deep learning has been widely used in med**ical image segmentation and other aspects. However,the performance of existing medical image segmentationmodels has been limited by the challenge of obtainingsufficient high-quality labeled data due to the prohibitivedata annotation cost. To alleviate this limitation, we propose a new text-augmented medical image segmentationmodel LViT (Language meets Vision Transformer). In ourLViT model, medical text annotation is incorporated tocompensate for the quality deficiency in image data. In addition, the text information can guide to generate pseudolabels of improved quality in the semi-supervised learning.We also propose an Exponential Pseudo label Iterationmechanism (EPI) to help the Pixel-Level Attention Module(PLAM) preserve local image features in semi-supervisedLViT setting. In our model, LV (Language-Vision) loss isdesigned to supervise the training of unlabeled imagesusing text information directly. For evaluation, we construct three multimodal medical segmentation datasets(image + text) containing X-rays and CT images. Experimental results show that our proposed LViT has superiorsegmentation performance in both fully-supervised andsemi-supervised setting.

深度学习已被广泛应用于医学图像分割等方面。然而,现有的医学图像分割模型的性能受到获取充足高质量标记数据的挑战的限制,因为数据注释成本过高。为了缓解这一限制,我们提出了一种新的文本增强医学图像分割模型LViT(Language meets Vision Transformer)。在我们的LViT模型中,将医学文本注释纳入,以弥补图像数据质量不足的缺陷。此外,文本信息可以指导生成半监督学习中改进质量的伪标签。我们还提出了指数伪标签迭代机制(EPI),以帮助像素级注意力模块(PLAM)在半监督LViT设置中保留局部图像特征。在我们的模型中,LV(Language-Vision)损失被设计用来直接使用文本信息监督未标记图像的训练。为了评估,我们构建了三个多模态医学分割数据集(图像+文本),其中包含X射线和CT图像。实验结果表明,我们提出的LViT在全监督和半监督设置下具有优越的分割性能。

Method

方法

As shown in Figure 2, the proposed LViT model is aDouble-U structure consisting of a U-shaped CNN branchand a U-shaped Transformer branch. The CNN branch actsas the source of information input and the segmentation headof prediction output, and the ViT branch is used to mergeimage and text information, where we exploit the ability ofTransformer to process cross-modality information. After asimple vectorization of the text, the text vector is merged withthe image vector and send to the U-shaped ViT branch forprocessing. In the model inference stage, we also need to perform similar processing on text input. And we pass the fusioninformation of corresponding size back to the U-shape CNNbranch at each layer for the final segmentation prediction.In addition, a Pixel-Level Attention Module (PLAM) is setat the skip connection position of the U-shape CNN branch.With PLAM, LViT is able to retain as much local featureinformation of images as possible. We also conduct ablationexperiments to demonstrate the effectiveness of each module.

如图2所示,提出的LViT模型是一个双U结构,由一个U形CNN分支和一个U形Transformer分支组成。CNN分支作为信息输入的源头和预测输出的分割头,而ViT分支用于合并图像和文本信息,我们利用Transformer处理跨模态信息的能力。在对文本进行简单的向量化后,文本向量与图像向量合并,并发送到U形ViT分支进行处理。在模型推断阶段,我们还需要对文本输入进行类似的处理。然后,我们将相应尺寸的融合信息返回到每个层级的U形CNN分支,用于最终的分割预测。此外,在U形CNN分支的跳跃连接位置设置了像素级注意力模块(PLAM)。通过PLAM,LViT能够尽可能保留图像的局部特征信息。我们还进行了消融实验,以证明每个模块的有效性。

Conclusion

结论

In this paper, we propose a new vision-language medicalimage segmentation model LViT, which leverages medicaltext annotation to compensate for the quality deficiency inimage data and guide to generate pseudo labels of improvedquality in the semi-supervised learning. Multimodal medical segmentation datasets (image + text) are constructed toevaluate the performance of LViT, and experimental resultsshow that our model has superior segmentation performancein both fully-supervised and semi-supervised settings. In addition, we present an example application on the diagnosis andtreatment of early-stage esophageal cancer to demonstrate how

在本文中,我们提出了一种新的视觉-语言医学图像分割模型 LViT,利用医学文本注释来补偿图像数据质量不足,并指导生成改进质量的伪标签以用于半监督学习。构建了多模态医学分割数据集(图像 + 文本)来评估 LViT 的性能,实验结果表明我们的模型在完全监督和半监督设置下均具有优越的分割性能。此外,我们提出了一个早期食管癌诊断和治疗的示例应用,以展示我们的方法可以如何进行。

Figure

图片

Fig. 1. Comparison of current medical image segmentation models and our proposed LViT model.

图1. 当前医学图像分割模型与我们提出的LViT模型的比较。

图片

Fig. 2.  Illustration of (a) the proposed LViT model, and (b) the Pixel-Level Attention Module (PLAM). The proposed LViT model is a Double-U structure formed by combining a U-shape CNN branch with a U-shaped ViT branch.

图2. (a) 提出的LViT模型的示意图,以及 (b) 像素级注意力模块(PLAM)。提出的LViT模型是通过将一个U形CNN分支与一个U形ViT分支相结合形成的双U结构。

图片

Fig. 3. Illustration of (a) Exponential Pseudo-label Iteration mechanism(EPI), and (b) LV (Language-Vision) Loss.

图3. (a) 指数伪标签迭代机制(EPI)的示意图,以及 (b) LV(语言-视觉)损失的示意图。

图片

Fig. 4. Qualitative results on the QaTa-COV19 and the MosMedData+ datasets.

图4. QaTa-COV19 和 MosMedData+ 数据集上的定性结果。

图片

Fig. 5. Saliency map for interpretability study of different approaches on the QaTa-COV19 dataset. The language input of the first row is “Bilateral pulmonary infection, two infected areas, lower left lung and lower right lung”. The language input of the second row is “Unilateral pulmonary infection, one infected area, middle left lung”.

图5. 对QaTa-COV19数据集上不同方法进行可解释性研究的显著性图。第一行的语言输入是“双侧肺感染,两个感染区域,左下肺和右下肺”。第二行的语言输入是“单侧肺感染,一个感染区域,左中肺”。

Fig. 6. Saliency map for interpretability study of different layers of LViT on the QaTa-COV19 dataset. The language input of the first row is “Bilateral pulmonary infection, three infected areas, all left lung and upper lower right lung”. The language input of the second row is “Bilateral pulmonary infection, two infected areas, all left lung and lower right lung”.

图6. 在QaTa-COV19数据集上对LViT不同层级进行可解释性研究的显著性图。第一行的语言输入是“双侧肺感染,三个感染区域,全部左肺和上下右肺”。第二行的语言输入是“双侧肺感染,两个感染区域,全部左肺和下右肺”。

Table

图片

TABLE I the specific division of different datasets

表格 I 不同数据集的具体划分

图片

TABLE II performance comparison between our method (lvit) and other state-of-the-art methods on the qata-cov19 and mosmeddata+ datasets. the “w” in lvit-tw refers to without the text information. the “hybrid” means cnn-transformer structure

表格 II 在 QaTa-COV19 和 MosMedData+ 数据集上,我们方法(LViT)与其他最新方法的性能比较。LViT-TW 中的 “W” 表示没有文本信息。“混合” 表示CNN-Transformer结构。

图片

TABLE III  ablation study on the effectiveness of supervised components: downvit, upvit, plam, text & semi-supervised components: epi, text, loss lv on the qata-cov19 dataset

表格 III 在 QaTa-COV19 数据集上对监督组件(DownViT、UpViT、PLAM、TEXT和LOSS LV)和半监督组件(EPI、TEXT、LOSS LV)的有效性进行消融研究。

图片

TABLE IV  ablation study on different model sizes: lvit-t, lvit-s, lvit-b. the dice and iou are in 'mean±std' format. the std stands for standard deviation in three times runs

表格 IV 不同模型尺寸的消融研究:LViT-T、LViT-S、LViT-B。Dice和IoU以 '均值±标准差' 格式表示。标准差代表三次运行的标准偏差。

图片

TABLE Vablation study on text encoder and text embedding layer

表格 V 文本编码器和文本嵌入层的消融研究

图片

TABLE VI ablation study with lvit-t on different hyper-parameters: batch size and learning rate

表格 VI 在不同超参数(批量大小和学习率)下使用 LViT-T 的消融研究

图片

TABLE VII ablation study on semi-supervision with lvit-t and other methods on the qata-cov19 dataset

表格 VII 在 QaTa-COV19 数据集上,使用 LViT-T 和其他方法进行半监督消融研究

图片

TABLE VIII table viii performance comparison between our method (lvit)and other methods on the eso-ct dataset

表格 VIII在 ESO-CT 数据集上,我们方法(LViT)与其他方法的性能比较

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/28467.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

谷粒商城实战(033 业务-秒杀功能4-高并发问题解决方案sentinel 2)

Java项目《谷粒商城》架构师级Java项目实战,对标阿里P6-P7,全网最强 总时长 104:45:00 共408P 此文章包含第332p-第p335的内容 熔断降级 开启对Feign远程服务的熔断保护机制 feign.sentinel.enabletrue 这里我们只是调用方加就行 被调用方不用加 正常…

NetSuite Saved Search 之 Filter By Summary

在某些业务场景中,用户需要一个TOP X的报表。例如,过去一段时间内,最多数量的事务处理类型。这就需要利用Saved Search中的Filter By Summary功能。 这在Criteria下的Summary页签里可以定义。其作用是对Result中Summary类型的结果进行过滤。也…

Vue52-scoped样式

一、scoped样式的作用 1-1、scoped样式的作用 vue中组件的样式都是汇总到一起的。容易出现一个问题:类名冲突。 示例: school和student组件的类名都叫demo,则student的样式将覆盖school的样式,因为App.vue中,先引入的…

sklearn 基础教程

scikit-learn(简称sklearn)是一个开源的机器学习库,它提供了简单和有效的数据分析和数据挖掘工具。sklearn是Python语言中最重要的机器学习库之一,广泛用于统计学习和数据分析。 以下是scikit-learn的基础教程,帮助您开…

存储器的性能指标以及层次化存储器

存储器的性能指标 存储器有三个性能指标:速度、容量和位价(每位价格) 1.存储速度 (1)存取时间 想衡量存储速度,最直观的指标就是完成一次存储器读写操作所需要的时间,这叫做存取时间&#x…

Spring运维之boo项目表现层测试加载测试的专用配置属性以及在JUnit中启动web服务器发送虚拟请求

测试表现层的代码如何测试 加载测试的专用属性 首先写一个测试 假定我们进行测试的时候要加一些属性 要去修改一些属性 我们可以写一个只在本测试有效的测试 写在配置里 测试 打印输出 我们把配置文件里面的配置注释掉后 我们同样可以启动 package com.example.demo;impo…

Qt状态机框架

概述 状态机框架提供了用于创建和执行状态图的类。这些概念和符号基于Harel的Statecharts:复杂系统的可视化形式(http://www.wisdom.weizmann.ac.il/~dharel/SCANNED.PAPERS/Statecharts.pdf),也是UML状态图的基础。状态机执行的语义基于状态图XML (SCXML)(http://…

Web的UI自动化基础知识

目录 1 Web自动化入门基础1.1 自动化知识以及工具1.2 主流web自动化测试工具1.3 入门案例 2 使用工具的API2.1 元素定位2.1.1 id选择器2.1.2 name2.1.3 class_name选择器2.1.4 tag_name选择器2.1.5 link_text选择器2.1.6 partial_link_text选择器2.1.7 xpath选择器2.1.8 CSS选择…

mediamtx流媒体服务器测试

MediaMTX简介 在web页面中直接播放rtsp视频流,重点推荐:mediamtx,不仅仅是rtsp-CSDN博客 mediamtx github MediaMTX(以前的rtsp-simple-server)是一个现成的和零依赖的实时媒体服务器和媒体代理,允许发布,读取&…

可视化大屏开发系列——页面布局

页面布局是可视化大屏的基础,想要拥有一个基本美观的大屏,就得考虑页面整体模块的宽高自适应,我们自然就会想到具有强大灵活性flex布局,再借助百分比布局来辅助。至此,大屏页面布局问题即可得到解决。 写在前面&#x…

哪些数据管理知识领域需要做到数据全生命周期管理

一、数据生命周期 数据管理、数据治理、数据安全、元数据管理、数据治理等知识领域,都需要按照数据的生命周期开展管理工作。数据生命周期包括计划、设计/启用、创建/获取、存储/维护、使用、增强和处置。详见下图。 1.数据治理生命周期 1)规划:将数据要求与业务战略连接起…

PTA 6 - 20 汉诺塔问题(py 递归)

这道题是一道比较典型的递归问题,他跟斐波那契数列的本质是一样的,大家自己动手推理一下,非常好推 参考代码: def hanoi(n,a,b,c):global stepif n 1:print(a,"->",c)step 1else:hanoi(n-1,a,c,b)print(a,"…

查看npm版本异常,更新nvm版本解决问题

首先说说遇见的问题,基本上把nvm,npm的坑都排了一遍 nvm版本导致npm install报错 Unexpected token ‘.‘install和查看node版本都正确,结果查看npm版本时候报错 首先就是降低node版本… 可以说基本没用,如果要降低版本的话&…

用python纯手写一个日历

一、代码 # 月份名称数组 months ["January", "February", "March", "April", "May", "June","July", "August", "September", "October", "November", &qu…

深度解析RocketMq源码-持久化组件(二) MappedFileQueue

1.绪论 MappedFileQueue是commitLog中最核心的主组件。前面讲解commitLog的时候也曾说过,MappedFileQueue本质上就是一个MappedFile队列,而commitLog操纵Mmapped读写的时候,也是通过MappedFileQueue来实现的。 commitlog和mappedfilequeue和…

git下载路径

第一步 1进入官网:Git - Downloading Package 第二步 根据自己的系统选择对应版本下载

局域网内怎么访问另一台电脑?(2种方法)

案例:需要在局域网内远程电脑 “当我使用笔记本电脑时,有时需要获取保存在台式机上的文件,而两者都连接在同一个局域网上。我的台式机使用的是Windows 10企业版,而笔记本电脑则是Windows 10专业版。我想知道是否可以通过网络远程…

OpenCV计算形状之间的相似度ShapeContextDistanceExtractor类的使用

操作系统:ubuntu22.04OpenCV版本:OpenCV4.9IDE:Visual Studio Code编程语言:C11 1.功能描述 ShapeContextDistanceExtractor是OpenCV库中的一个类,主要用于计算形状之间的相似度或距离。它是基于形状上下文(Shape Co…

26.1 WEB框架介绍

1. Web应用程序 1.1 应用程序有两种模式 应用程序的架构模式主要分为两种: C/S (客户端/服务器端)和B/S(浏览器/服务器端). * 1. C/S模式, 即客户端/服务器模式(Client/Server Model): 是一种分布式计算模式.它将应用程序的功能划分为客户端和服务器端两部分.在这种模式下, 客…

码住!详解时序数据库不同分类与性能对比

加速发展中的时序数据库,基于不同架构,最流行的类别是? 作为管理工业场景时序数据的新兴数据库品类,时序数据库凭借着对海量时序数据的高效存储、高可扩展性、时序分析计算等特性,一跃成为物联网时代工业领域颇受欢迎的…