MMGPL: 多模态医学数据分析与图提示学习| 文献速递-基于深度学习的多模态数据分析与生存分析

Title

题目

MMGPL: Multimodal Medical Data Analysis with Graph Prompt Learning

MMGPL: 多模态医学数据分析与图提示学习

01

文献速递介绍

神经学障碍,包括自闭症谱系障碍(ASD)(Lord等,2018年)和阿尔茨海默病(AD)(Scheltens等,2021年),严重影响患者的社交、语言和认知能力,并已成为全球严重的公共健康问题(Feigin等,2020年)。不幸的是,对于大多数神经学障碍(例如ASD和AD),目前没有明确的治愈方法,因此迫切需要进行神经学障碍的诊断,以促进早期干预和延缓其恶化(Wingo等,2021年;Zhu等,2022年)。

在过去的十年里,研究人员(Wen等,2020年;Li等,2021年;Dvornek等,2019年)应用了各种机器学习方法,如卷积神经网络(CNN)(LeCun和Bengio,1995年)、图神经网络(GNN)(Kipf和Welling,2017年)和循环神经网络(RNN)(Schuster和Paliwal,1997年),来诊断神经学障碍。尽管这些方法取得了显著的进展,但由于这些方法直接在小规模且复杂的医学数据集上训练(Dinsdale等,2022年),深度学习模型的稳健性和有效性难以保证。

最近,训练在广泛数据集和多样任务上的多模态大型模型(Liu等,2023年;Driess等,2023年;Tu等,2023年;Wu等,2023年)展现出了显著的通用性和适应性。因此,多模态大型模型已成为医学数据分析领域的一个重要关注点。各个领域的研究人员已开发出不同的产品,如大型语言模型(例如GPT(OpenAI,2023年))和大型视觉模型(例如SAM(Kirillov等,2023年))。它们可以加速精确和稳健模型的开发,减少对大量标记数据的依赖(Zhang和Metaxas,2023年)。由于其通用性,多模态大型模型在解决神经学障碍的各种诊断任务中具有巨大潜力。

然而,将这些多模态大型模型应用于神经学障碍诊断领域面临着重大挑战,因为多模态医学数据的各种模态(例如PET和MRI)与自然图像差异很大。为了填补预训练任务与下游任务之间的差距,研究人员利用全面微调和提示学习等技术,对预训练的多模态大型模型进行特定医学领域下游任务的解决。

Abstract

摘要

在将多模态大型模型微调到广泛的下游任务中表现出令人印象深刻的效果。然而,将现有的提示学习方法应用于神经疾病的诊断仍然存在两个问题:(i) 现有方法通常平等对待所有图像块,尽管神经影像中只有少数图像块与疾病相关,(ii) 它们忽略了脑连接网络中固有的结构信息,这对于理解和诊断神经疾病至关重要。为了解决这些问题,我们引入了一种新的提示学习模型,在多模态模型的微调过程中学习图提示,用于诊断神经疾病。具体而言,我们首先利用GPT-4获取相关的疾病概念,并计算这些概念与所有图像块之间的语义相似性。其次,根据每个图像块与与疾病相关概念之间的语义相似性减少不相关图像块的权重。此外,我们基于这些概念构建了一个图,使用图卷积网络层提取图的结构信息,用于提示预训练的多模态模型,以诊断神经疾病。大量实验表明,我们的方法在神经疾病诊断方面相比最先进的方法表现出优越的性能,并得到了临床医生的验证。

Method

方法

Utilizing transformers (Vaswani et al., 2017) as the architectureof encoders to process multimodal data has become a popular choicein modern multimodal large models, as it can effectively integrateinformation from multiple modalities. For example, pre-trained visionlanguage models like CLIP (Radford et al., 2021) employ separatetransformer-based backbones (e.g., ViT) to encode images and textseparately. To obtain representations of the samples, the transformerarchitecture involves two key components: (i) Tokenization: convertingthe raw data into tokens. (ii) Encoding: performing attention-basedfeature extraction layers on all tokens.

在处理多模态数据的编码器架构中,利用Transformer(Vaswani等,2017年)已成为现代多模态大型模型中的流行选择,因为它能够有效地整合来自多个模态的信息。例如,像CLIP(Radford等,2021年)这样的预训练视觉语言模型采用了分别编码图像和文本的基于Transformer的主干(例如ViT)。为了获取样本的表示,Transformer架构包括两个关键组成部分:(i) 分词化:将原始数据转换为标记。(ii) 编码:对所有标记执行基于注意力的特征提取层。

Conclusion

结论

In this paper, we proposed a graph prompt learning fine-turningframework for neurological disorder diagnosis, by jointly considering the impact of irrelevant patches as well as the structural information among tokens in multimodal medical data. Specifically, weconduct concept learning, aiming to reduce the weights of irrelevant tokens according to the semantic similarity between each tokenand disease-related concepts. Moreover, we conducted graph promptlearning with concept embeddings, aiming to bridge the gap betweenmultimodal models and neurological disease diagnosis. Experimentalresults demonstrated the effectiveness of our proposed method, compared to state-of-the-art methods on neurological disease diagnosistasks.

在本论文中,我们提出了一种图提示学习微调框架,用于神经学障碍的诊断,同时考虑多模态医学数据中不相关图像块的影响以及标记之间的结构信息。具体而言,我们进行了概念学习,旨在根据每个标记与与疾病相关的概念之间的语义相似性减少不相关标记的权重。此外,我们进行了带有概念嵌入的图提示学习,旨在弥合多模态模型与神经学疾病诊断之间的差距。实验结果显示,与最先进的神经学疾病诊断方法相比,我们提出的方法在实验中表现出了显著的有效性。

Figure

图片

Fig. 1. The flowchart of the proposed MMGPL consists of three modules i.e., multimodal data tokenizer (light blue block), concept learning (light green block), and graph promptlearning (light yellow block). First, MMGPL divides the multimodal medical data into multiple patches and project them into a shared embedding space (Section 3.2). Second,MMGPL prompts the GPT-4 to generate disease-related concepts and further learn the weights of tokens based on the semantic similarity between tokens and concepts (Section 3.3).Third, MMGPL learns a graph among tokens and extracts structural information to prompt the unified encoder (Section 3.4). Finally, MMGPL obtains the output from the unifiedencoder and uses it to predict the label of the subject.

图 1. 提出的MMGPL流程图包括三个模块,即多模态数据分词器(浅蓝色块)、概念学习(浅绿色块)和图提示学习(浅黄色块)。首先,MMGPL将多模态医学数据分割成多个图像块,并投影到共享嵌入空间中(第3.2节)。其次,MMGPL提示GPT-4生成与疾病相关的概念,并根据各个图像块与概念之间的语义相似性进一步学习标记的权重(第3.3节)。第三,MMGPL在各个标记之间学习一个图,并提取结构信息以提示统一编码器(第3.4节)。最后,MMGPL从统一编码器获取输出,并用于预测受试者的标签。

图片

Fig. 2. Performance of MMGPL with different combinations of components on all datasets, i.e., ‘‘B’’ denotes baseline method, ‘‘B+G’’ denotes baseline method with graph promptlearning, ‘‘B+W’’ denotes baseline method with token weights, and ‘‘B+W+G’’ denotes baseline method with graph prompt learning and token weights.

图 2. MMGPL在所有数据集上使用不同组件组合的性能,即‘‘B’’表示基线方法,‘‘B+G’’表示基线方法与图提示学习,‘‘B+W’’表示基线方法与标记权重,‘‘B+W+G’’表示基线方法与图提示学习以及标记权重的组合。

图片

Fig. 3. Performance of MMGPL with different modalities.

图 3. MMGPL在不同模态下的性能表现。

图片

Fig. 4. Heat maps generated by MMGPL on different subjects in ADNI dataset.

图 4. MMGPL在ADNI数据集中生成的热图,显示不同受试者的结果。

图片

Fig. 5. The visualization of concept-similarity graph on the ADNI dataset. The horizontal and vertical axes represent concepts and tokens. Different colors represent conceptsbelonging to different categories. The red texts represent concepts related to NC, the green texts represent concepts related to LMCI, and the blue texts represent concepts relatedto AD.

图 5. 在ADNI数据集上显示的概念相似性图可视化。水平和垂直轴代表概念和标记。不同颜色表示属于不同类别的概念。红色文字表示与NC相关的概念,绿色文字表示与LMCI相关的概念,蓝色文字表示与AD相关的概念。

图片

Fig. 6. The visualization of the quantified impact of different concepts on the ADNIdataset. The concepts are shown on the left side, while classes are shown on the rightside. The width of the lines corresponds to the magnitude of the weights, and thevalues indicate the specific weight values.

图 6. 在ADNI数据集上显示的不同概念对其影响的可视化。左侧显示概念,右侧显示类别。线条的宽度对应权重的大小,数值表示具体的权重数值。

Table

图片

Table 1Diagnose performance (mean and standard deviation) of all methods on all datasets. Note that, ‘‘ADNI-3CLS’’ and ‘‘ADNI-4CLS’’ indicate theclassification on three classes ‘‘NC/LMCI/AD’’ and the classification on four classes ‘‘NC/EMCI/LMCI/AD’’, respectively.

表 1 各种方法在所有数据集上的诊断性能(均值和标准差)。注意,“ADNI-3CLS”和“ADNI-4CLS”分别表示在三类(“NC/LMCI/AD”)和四类(“NC/EMCI/LMCI/AD”)分类上的表现。

图片

Table 2Comparison between MMGPL and related works on scalability. Note that, ✓(vanilla)indicates can only supports two modalities and is challenging to expand to supportsmore modalities.

表 2 MMGPL与相关工作在可扩展性上的比较。注意,✓(原始)表示只能支持两种模态,并且难以扩展以支持更多模态。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/43686.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

开发个人Go-ChatGPT–6 OpenUI

开发个人Go-ChatGPT–6 OpenUI Open-webui Open WebUI 是一种可扩展、功能丰富且用户友好的自托管 WebUI,旨在完全离线运行。它支持各种 LLM 运行器,包括 Ollama 和 OpenAI 兼容的 API。 功能 由于总所周知的原由,OpenAI 的接口需要密钥才…

Elasticsearch详细介绍

B站对应视频: Elasticsearch01-01.为什么学习elasticsearch_哔哩哔哩_bilibili 大多数日常项目,搜索肯定是访问频率最高的页面之一。目前搜索功能是基于数据库的模糊搜索来实现的,存在很多问题。 首先,查询效率较低。 由于数据…

数据结构 Java DS——链表部分经典题目 (1)

前言 笔者计划在暑假啃完JavaDS,Mysql的内容当然也会继续更 这次给读者们分享的是链表的几个比较典型的题目,关于如何手搓一个链表,笔者还在筹划中, 毕竟链表的种类也有那么多,但是在下面的题目中,只有单向链表 题目一 : 反转链表 206. 反转链表 - 力扣(LeetCode…

什么是 VueQuill(前端的富文本编辑器)?

什么是 VueQuill? 1. 简介 VueQuill 是 Vue.js 的一个富文本编辑器插件,它基于 Quill 编辑器构建,提供了简洁且功能强大的富文本编辑功能。Quill 是一个现代化的富文本编辑器,提供丰富的文本编辑能力,支持多种格式和…

RockYou2024 发布史上最大密码凭证

参与 CTF 的每个人都至少使用过一次臭名昭著的rockyou.txt单词表,主要是为了执行密码破解活动。 该文件是一份包含1400 万个唯一密码的列表。 源自 2009 年的 RockYou 黑客攻击,创造了计算机安全历史。 多年来,“rockyou 系列”不断发展。…

爬虫怎么实现抓取的

1.4爬虫工程师常用的库通过图1-3我们了解到,爬虫程序的完整链条包括整理需求、分析目标、发出网络请求、文本解析、数据入库和数据出库。其中与代码紧密相关的有:发出网络请求、文本解析、数据入库和数据出库,接下来我们将学习不同阶段中爬虫…

Java反射与Fastjson的危险反序列化

什么是Java反射? 在前文中,我们有一行代码 Computer macBookPro JSON.parseObject(preReceive,Computer.class); 这行代码是什么意思呢?看起来好像就是我们声明了一个名为 macBookPro 的 Computer 类,它由 fastjson 的 parseObje…

《梦醒蝶飞:释放Excel函数与公式的力量》10.2 COMPLEX函数

第二节 10.2 COMPLEX函数 10.2.1函数简介 COMPLEX函数是Excel中的一个工程函数,用于将实部和虚部组合成一个复数。复数广泛应用于工程、电气、物理等领域,COMPLEX函数提供了方便的复数表示和计算方法。 10.2.2语法: COMPLEX(real_num, i_…

【LabVIEW学习篇 - 5】:数据类型——数值、字符串

文章目录 数值枚举下拉列表控件 字符串字符串与十六进制截取字符串连接字符串 字符串与数值间的转换字符串转为数值数值转为字符串 数值 如下图所示,各种数值型数据的不同之处在于存储和表示数据时所使用的位置不同。 浮点型 整型 在LabVIEW中,想要改…

JavaScript中的LHS和RHS

LHS和RHS之前我们先来回忆一下最简单的赋值操作! var test100; console.log(test); 以上代码的意思简单我们理解为把右边的值赋值给左边的test变量,然后输出打印结果。 可是我们要是深入理解你就会发现在这个过程当中,还发生了一些其他的事情 而这些事情就是今天…

欧姆龙安全PLC及周边产品要点指南

电气安全、自动化设备作业安全,向来是非常非常之重要的!越来越多的客户在规划新产线、改造既有产线的过程中,明确要求设计方和施工方将安全考虑进整体方案中进行考虑和报价!作为一名自动化电气工程师,尤其是高级工程师…

养宠经验分享猫咪经常掉毛怎么办?最值得买的宠物空气净化器分享

身为资深铲屎官,深知若偷懒不打扫,家中便成猫毛纷飞、异味缭绕的战场,尤其换季时,更是雪上加霜。长期处于这样的环境,不仅我们头疼眼涩、咳嗽气喘,对老人、小孩、孕妇等敏感群体更是健康大敌。 幸运的是&a…

Vagrant配合VirtualBox搭建虚拟机

目录 前言一、软件下载及安装1.下载2.安装扩展: 二、创建一个虚拟机1.Vagrant官方镜像仓库 三、使用远程工具连接虚拟机1.修改相关配置文件 四、虚拟机克隆及使用1.通用配置2.简单搭建一个java环境3.克隆虚拟机1.重命名虚拟机(可选)2.打包指定…

靶场练习 手把手教你通关DC系列 DC1

DC1靶场通关教程 文章目录 DC1靶场通关教程前言一、信息收集1.主机存活2.端口收集3.网页信息收集4.目录收集4.1 Nikto4.2 Dirb 信息收集总结 二、漏洞发现与利用1. 发现2. 利用 三、FlagFlag1Flag2Flag3Flag4Flag5(提权) 前言 本次使用的kali机的IP地址为192.168.243.131 DC1的…

【2024_CUMCM】LINGO入门+动态规划

目录 什么是动态规划 怎么使用动态规划? 例题:最短路线问题 2020b-问题一 稳定性分析 灵敏度分析 什么是动态规划 基本想法:将原问题转换为一系列相互联系的子问题,然后通过逐层递推求得最后的解 基本思想:解决…

X12端口配置指南:ISA ID、测试指示符与997

通过知行之桥EDI系统实现X12 & 标准XML之间的格式转换时,需要完善交换头ISA ID及其限定符、测试标识符以及997的相关配置。 在X12文件中有两组EDI ID对,分别是发送方 ID 限定符 及发送方ID ,接收方 ID 限定符及接收方ID。 比如&#xf…

STM32Cubemx配置生成 Keil AC6支持代码

文章目录 一、前言二、AC 6配置2.1 ARM ComPiler 选择AC62.2 AC6 UTF-8的编译命令会报错 三、STM32Cubemx 配置3.1 找到stm32cubemx的模板位置3.2 替换文件内核文件3.3 修改 cmsis_os.c文件3.4 修改本地 四、编译对比 一、前言 使用keil ARM compiler V5的时候,编译…

Java内存区域与内存溢出异常(自动内存管理)

序言:Java与C之间有一堵由内存动态分配和垃圾收集技术所围成的高墙,墙外面的人想进去,墙里面的人却想出来。 1.1概述 对于从事C、C程序开发的开发人员来说,在内存管理领域,他们既是拥有最高权力的“皇帝”&#xff0c…

在FPGA程序中Handshake(握手)和Register(寄存器)区别

在FPGA程序中,Handshake(握手)和Register(寄存器)是两种不同的通信和数据传输机制。它们各有特点和适用场景。以下是它们的区别和应用场景的详细解释: Register(寄存器) 特点&#…

SQLServer用户们,你们摊上大事了!

最近一段时间,我们经常会收到了许多用户的咨询,问我们何时能纳管SQLServer?耐不住小伙伴们的猛烈催促及热切期待,本不想纳管SQLServer的研发团队也抓紧将这项需求提上日程。并在DBdoctor v3.2.2版本中成功实现了对SQLServer的纳管…