LViT: 语言与视觉Transformer在医学图像分割中的应用| 文献速递-深度学习结合医疗影像疾病诊断与病灶分割

Title

题目

LViT: Language Meets Vision Transformer in Medical Image Segmentatio

LViT: 语言与视觉Transformer在医学图像分割中的应用

01

文献速递介绍

医学图像分割是医学图像分析中最关键的任务之一。在临床实践中,准确的分割可以帮助医生诊断疾病,指导治疗方案的制定。然而,现有的医学图像分割模型在使用高质量标记数据方面存在挑战,这主要是由于标记数据的获取成本高昂。为了解决这一挑战,我们提出了一种新的文本增强医学图像分割模型LViT。在LViT模型中,我们采用了混合的CNN-Transformer结构,并设计了像素级注意力模块(PLAM),这样可以更好地整合文本信息,同时保留CNN从图像中提取局部特征的能力。为了解决第二个挑战,我们设计了一种指数伪标签迭代机制(EPI),旨在逐步改进伪标签,并间接地利用文本信息来优化伪标签。此外,我们设计了LV(语言-视觉)损失,以直接利用文本信息来监督未标记医学图像的训练。为了验证LViT的性能,我们构建了三个多模态医学图像分割数据集,包含CT图像和X射线图像。实验结果表明,LViT在不同数据集上均取得了优异的分割性能,即使仅使用了部分训练集标签,也能获得与全监督方法相当的性能。

Abstract

摘要

Deep learning has been widely used in med**ical image segmentation and other aspects. However,the performance of existing medical image segmentationmodels has been limited by the challenge of obtainingsufficient high-quality labeled data due to the prohibitivedata annotation cost. To alleviate this limitation, we propose a new text-augmented medical image segmentationmodel LViT (Language meets Vision Transformer). In ourLViT model, medical text annotation is incorporated tocompensate for the quality deficiency in image data. In addition, the text information can guide to generate pseudolabels of improved quality in the semi-supervised learning.We also propose an Exponential Pseudo label Iterationmechanism (EPI) to help the Pixel-Level Attention Module(PLAM) preserve local image features in semi-supervisedLViT setting. In our model, LV (Language-Vision) loss isdesigned to supervise the training of unlabeled imagesusing text information directly. For evaluation, we construct three multimodal medical segmentation datasets(image + text) containing X-rays and CT images. Experimental results show that our proposed LViT has superiorsegmentation performance in both fully-supervised andsemi-supervised setting.

深度学习已被广泛应用于医学图像分割等方面。然而,现有的医学图像分割模型的性能受到获取充足高质量标记数据的挑战的限制,因为数据注释成本过高。为了缓解这一限制,我们提出了一种新的文本增强医学图像分割模型LViT(Language meets Vision Transformer)。在我们的LViT模型中,将医学文本注释纳入,以弥补图像数据质量不足的缺陷。此外,文本信息可以指导生成半监督学习中改进质量的伪标签。我们还提出了指数伪标签迭代机制(EPI),以帮助像素级注意力模块(PLAM)在半监督LViT设置中保留局部图像特征。在我们的模型中,LV(Language-Vision)损失被设计用来直接使用文本信息监督未标记图像的训练。为了评估,我们构建了三个多模态医学分割数据集(图像+文本),其中包含X射线和CT图像。实验结果表明,我们提出的LViT在全监督和半监督设置下具有优越的分割性能。

Method

方法

As shown in Figure 2, the proposed LViT model is aDouble-U structure consisting of a U-shaped CNN branchand a U-shaped Transformer branch. The CNN branch actsas the source of information input and the segmentation headof prediction output, and the ViT branch is used to mergeimage and text information, where we exploit the ability ofTransformer to process cross-modality information. After asimple vectorization of the text, the text vector is merged withthe image vector and send to the U-shaped ViT branch forprocessing. In the model inference stage, we also need to perform similar processing on text input. And we pass the fusioninformation of corresponding size back to the U-shape CNNbranch at each layer for the final segmentation prediction.In addition, a Pixel-Level Attention Module (PLAM) is setat the skip connection position of the U-shape CNN branch.With PLAM, LViT is able to retain as much local featureinformation of images as possible. We also conduct ablationexperiments to demonstrate the effectiveness of each module.

如图2所示,提出的LViT模型是一个双U结构,由一个U形CNN分支和一个U形Transformer分支组成。CNN分支作为信息输入的源头和预测输出的分割头,而ViT分支用于合并图像和文本信息,我们利用Transformer处理跨模态信息的能力。在对文本进行简单的向量化后,文本向量与图像向量合并,并发送到U形ViT分支进行处理。在模型推断阶段,我们还需要对文本输入进行类似的处理。然后,我们将相应尺寸的融合信息返回到每个层级的U形CNN分支,用于最终的分割预测。此外,在U形CNN分支的跳跃连接位置设置了像素级注意力模块(PLAM)。通过PLAM,LViT能够尽可能保留图像的局部特征信息。我们还进行了消融实验,以证明每个模块的有效性。

Conclusion

结论

In this paper, we propose a new vision-language medicalimage segmentation model LViT, which leverages medicaltext annotation to compensate for the quality deficiency inimage data and guide to generate pseudo labels of improvedquality in the semi-supervised learning. Multimodal medical segmentation datasets (image + text) are constructed toevaluate the performance of LViT, and experimental resultsshow that our model has superior segmentation performancein both fully-supervised and semi-supervised settings. In addition, we present an example application on the diagnosis andtreatment of early-stage esophageal cancer to demonstrate how

在本文中,我们提出了一种新的视觉-语言医学图像分割模型 LViT,利用医学文本注释来补偿图像数据质量不足,并指导生成改进质量的伪标签以用于半监督学习。构建了多模态医学分割数据集(图像 + 文本)来评估 LViT 的性能,实验结果表明我们的模型在完全监督和半监督设置下均具有优越的分割性能。此外,我们提出了一个早期食管癌诊断和治疗的示例应用,以展示我们的方法可以如何进行。

Figure

图片

Fig. 1. Comparison of current medical image segmentation models and our proposed LViT model.

图1. 当前医学图像分割模型与我们提出的LViT模型的比较。

图片

Fig. 2.  Illustration of (a) the proposed LViT model, and (b) the Pixel-Level Attention Module (PLAM). The proposed LViT model is a Double-U structure formed by combining a U-shape CNN branch with a U-shaped ViT branch.

图2. (a) 提出的LViT模型的示意图,以及 (b) 像素级注意力模块(PLAM)。提出的LViT模型是通过将一个U形CNN分支与一个U形ViT分支相结合形成的双U结构。

图片

Fig. 3. Illustration of (a) Exponential Pseudo-label Iteration mechanism(EPI), and (b) LV (Language-Vision) Loss.

图3. (a) 指数伪标签迭代机制(EPI)的示意图,以及 (b) LV(语言-视觉)损失的示意图。

图片

Fig. 4. Qualitative results on the QaTa-COV19 and the MosMedData+ datasets.

图4. QaTa-COV19 和 MosMedData+ 数据集上的定性结果。

图片

Fig. 5. Saliency map for interpretability study of different approaches on the QaTa-COV19 dataset. The language input of the first row is “Bilateral pulmonary infection, two infected areas, lower left lung and lower right lung”. The language input of the second row is “Unilateral pulmonary infection, one infected area, middle left lung”.

图5. 对QaTa-COV19数据集上不同方法进行可解释性研究的显著性图。第一行的语言输入是“双侧肺感染,两个感染区域,左下肺和右下肺”。第二行的语言输入是“单侧肺感染,一个感染区域,左中肺”。

Fig. 6. Saliency map for interpretability study of different layers of LViT on the QaTa-COV19 dataset. The language input of the first row is “Bilateral pulmonary infection, three infected areas, all left lung and upper lower right lung”. The language input of the second row is “Bilateral pulmonary infection, two infected areas, all left lung and lower right lung”.

图6. 在QaTa-COV19数据集上对LViT不同层级进行可解释性研究的显著性图。第一行的语言输入是“双侧肺感染,三个感染区域,全部左肺和上下右肺”。第二行的语言输入是“双侧肺感染,两个感染区域,全部左肺和下右肺”。

Table

图片

TABLE I the specific division of different datasets

表格 I 不同数据集的具体划分

图片

TABLE II performance comparison between our method (lvit) and other state-of-the-art methods on the qata-cov19 and mosmeddata+ datasets. the “w” in lvit-tw refers to without the text information. the “hybrid” means cnn-transformer structure

表格 II 在 QaTa-COV19 和 MosMedData+ 数据集上,我们方法(LViT)与其他最新方法的性能比较。LViT-TW 中的 “W” 表示没有文本信息。“混合” 表示CNN-Transformer结构。

图片

TABLE III  ablation study on the effectiveness of supervised components: downvit, upvit, plam, text & semi-supervised components: epi, text, loss lv on the qata-cov19 dataset

表格 III 在 QaTa-COV19 数据集上对监督组件(DownViT、UpViT、PLAM、TEXT和LOSS LV)和半监督组件(EPI、TEXT、LOSS LV)的有效性进行消融研究。

图片

TABLE IV  ablation study on different model sizes: lvit-t, lvit-s, lvit-b. the dice and iou are in 'mean±std' format. the std stands for standard deviation in three times runs

表格 IV 不同模型尺寸的消融研究:LViT-T、LViT-S、LViT-B。Dice和IoU以 '均值±标准差' 格式表示。标准差代表三次运行的标准偏差。

图片

TABLE Vablation study on text encoder and text embedding layer

表格 V 文本编码器和文本嵌入层的消融研究

图片

TABLE VI ablation study with lvit-t on different hyper-parameters: batch size and learning rate

表格 VI 在不同超参数(批量大小和学习率)下使用 LViT-T 的消融研究

图片

TABLE VII ablation study on semi-supervision with lvit-t and other methods on the qata-cov19 dataset

表格 VII 在 QaTa-COV19 数据集上,使用 LViT-T 和其他方法进行半监督消融研究

图片

TABLE VIII table viii performance comparison between our method (lvit)and other methods on the eso-ct dataset

表格 VIII在 ESO-CT 数据集上,我们方法(LViT)与其他方法的性能比较

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/28467.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

js继承,原型链继承,构造函数继承,组合式继承,原型式继承,寄生式继承,组合寄生式继承,extends继承

继承的理解,复用父类的属性和方法并增加新的属性和方法 目录 1. 原型链继承: 2. 构造函数继承 3. 组合式继承 4. 原型式继承 5. 寄生式继承 6. 组合寄生式继承 7. extends继承 1. 原型链继承: 父类构造函数的实例赋值给子类原型 func…

谷粒商城实战(033 业务-秒杀功能4-高并发问题解决方案sentinel 2)

Java项目《谷粒商城》架构师级Java项目实战,对标阿里P6-P7,全网最强 总时长 104:45:00 共408P 此文章包含第332p-第p335的内容 熔断降级 开启对Feign远程服务的熔断保护机制 feign.sentinel.enabletrue 这里我们只是调用方加就行 被调用方不用加 正常…

C调用C++中的类

文章目录 测试代码 测试代码 在C语言中调用C类,需要遵循几个步骤: 在C代码中,确保C类的函数是extern “C”,这样可以防止名称修饰(name mangling)。 使用头文件声明C类的公共接口,并且为这个…

JS如何判断一个对象是否为数组?

在JavaScript中,有多种方法可以判断一个对象是否为数组。以下是一些常用的方法: 使用Array.isArray()方法: 这是ECMAScript 5.1引入的一个方法,专门用于判断一个对象是否为数组。 let obj [1, 2, 3]; console.log(Array.isA…

NetSuite Saved Search 之 Filter By Summary

在某些业务场景中,用户需要一个TOP X的报表。例如,过去一段时间内,最多数量的事务处理类型。这就需要利用Saved Search中的Filter By Summary功能。 这在Criteria下的Summary页签里可以定义。其作用是对Result中Summary类型的结果进行过滤。也…

华为od-C卷200分题目 - 1分月饼

华为od-C卷200分题目 - 1分月饼 题目描述 中秋节&#xff0c;公司分月饼&#xff0c;m个员工&#xff0c;买了n个月饼&#xff0c;m<n&#xff0c;每个员工至少分1个月饼&#xff0c;但可以分多个&#xff0c; 单人分到最多月饼的个数是Max1&#xff0c;单人分到第二多月饼…

Flutter 实现StackAllocator简化FFI局部变量的内存管理

文章目录 前言一、为何简化&#xff1f;1、通常做法2、简化 二、完整代码三、使用示例1、局部内存管理2、支持嵌套 总结 前言 使用Flutter通过FFI调用c库的时候&#xff0c;经常需要传字符串或者一些指针变量&#xff0c;这里变量通常都是局部变量&#xff0c;在一个代码块运行…

Spock mock私有方法

mock私有方法 ‍ 被测试的方法是MiddleGroundAppListBO​类下的getPromptIdKeyAppPromptInfoMap方法 private Map<Long, AppPromptInfoModel> getPromptIdKeyAppPromptInfoMap(String cubeAppIdentity) {List<AppPromptInfoDO> promptByApp knowledgeCubeQueryR…

轻松实现服务器事件主动推送到web端!Spring SseEmitter 详解

SseEmitter 是 Spring Framework 中用于服务器发送事件&#xff08;Server-Sent Events, SSE&#xff09;的类。SSE 是一种允许服务器推送更新到客户端的技术&#xff0c;通常用于实时更新的场景&#xff0c;如股票价格、实时消息、游戏状态等&#xff0c;又或者想要实现像Chat…

Vue52-scoped样式

一、scoped样式的作用 1-1、scoped样式的作用 vue中组件的样式都是汇总到一起的。容易出现一个问题&#xff1a;类名冲突。 示例&#xff1a; school和student组件的类名都叫demo&#xff0c;则student的样式将覆盖school的样式&#xff0c;因为App.vue中&#xff0c;先引入的…

Kubernetes (K8s) 和 Spring Cloud 的区别

Kubernetes (K8s) 和 Spring Cloud 是两种常用的云原生技术&#xff0c;它们在微服务架构和云计算领域中扮演着重要的角色。尽管两者都有助于开发和部署微服务&#xff0c;但它们的功能和目标存在显著差异。本文将详细讨论 Kubernetes 和 Spring Cloud 的区别&#xff0c;从它们…

NLP主流大模型如GPT3/chatGPT/T5/PaLM/LLaMA/GLM的原理和差异有哪些-详细解读

自然语言处理&#xff08;NLP&#xff09;领域的多个大型语言模型&#xff08;如GPT-3、ChatGPT、T5、PaLM、LLaMA和GLM&#xff09;在结构和功能上有显著差异。以下是对这些模型的原理和差异的深入分析&#xff1a; GPT-3 (Generative Pre-trained Transformer 3) 虽然GPT-4…

Rocky Linux安装Docker

简介&#xff1a; Red Hat Enterprise Linux (RHEL): RHEL 是由 Red Hat 公司开发和维护的企业级操作系统。 它是基于开源社区的 Fedora 项目&#xff0c;但提供了商业支持和服务&#xff0c;面向企业用户。 RHEL 提供了稳定、可靠和高性能的操作环…

理解JSP底层

import java.net.URLDecoder;public class login_jsp{//JSP的9大内置对象private JSPWriter out;//当前JSP输出流对象private HttpServletRequest request;//请求对象private HttpServletResponse response;//响应对象private HttpSession session;//会话对象private ServletCo…

【Python数据分析】Pandas_Series如何转变为DataFrame

1.使用 pd.DataFrame()构造函数 可以使用pd.DataFrame()构造函数将 Series 转换为 DataFrame。在构造函数中&#xff0c;将 Series 作为一个列传递给 DataFrame&#xff0c;并且可以通过指定列名来为 DataFrame 的列命名。 代码示例&#xff1a; import pandas as pd data[1…

sklearn 基础教程

scikit-learn&#xff08;简称sklearn&#xff09;是一个开源的机器学习库&#xff0c;它提供了简单和有效的数据分析和数据挖掘工具。sklearn是Python语言中最重要的机器学习库之一&#xff0c;广泛用于统计学习和数据分析。 以下是scikit-learn的基础教程&#xff0c;帮助您开…

【Python高级编程】用 Matplotlib 绘制迷人的图表

用 Matplotlib 绘制迷人的图表 引言 Matplotlib 是 Python 中广泛使用的绘图库&#xff0c;用于创建各种图表和可视化。本文将逐步指导您使用 Matplotlib 绘制基本图表&#xff0c;包括折线图、条形图和散点图。 安装 Matplotlib 使用 pip 安装 Matplotlib&#xff1a; pi…

存储器的性能指标以及层次化存储器

存储器的性能指标 存储器有三个性能指标&#xff1a;速度、容量和位价&#xff08;每位价格&#xff09; 1.存储速度 &#xff08;1&#xff09;存取时间 想衡量存储速度&#xff0c;最直观的指标就是完成一次存储器读写操作所需要的时间&#xff0c;这叫做存取时间&#x…

Spring运维之boo项目表现层测试加载测试的专用配置属性以及在JUnit中启动web服务器发送虚拟请求

测试表现层的代码如何测试 加载测试的专用属性 首先写一个测试 假定我们进行测试的时候要加一些属性 要去修改一些属性 我们可以写一个只在本测试有效的测试 写在配置里 测试 打印输出 我们把配置文件里面的配置注释掉后 我们同样可以启动 package com.example.demo;impo…

【数组基础知识】

二维数组 我的理解是&#xff0c;如果内层有值&#xff0c;外层打印就是地址值。如果内层没值&#xff0c;外层打印就是null。 int[][]a new int [3][]; 这样打印a[0]的时候是null。 打印a[0][0]会报错。 int[][]a new int [3][1]; 这样打印a[0]的时候是地址值。 打印a…