TV-SAM 新型零样本医学图像分割算法：GPT-4语言处理 + GLIP视觉理解 + SAM分割技术

TV-SAM 新型零样本医学图像分割算法：GPT-4语言处理 + GLIP视觉理解 + SAM分割技术

提出背景
TV-SAM 方法论

论文：https://arxiv.org/ftp/arxiv/papers/2402/2402.15759.pdf

代码：https://github.com/JZK00/TV-SAM

利用了GPT-4的强大语言处理能力、GLIP的视觉理解能力以及SAM的分割技术，TV-SAM能够自动解析医疗图像，生成精准的文本和视觉提示，从而实现了前所未有的零样本分割效果。

经过在七个涵盖八种成像技术的公共数据集上的全面测试，TV-SAM不仅大幅度超越了SAM AUTO和GSAM的性能，而且与采用黄金标准边界框提示的SAM BBOX表现媲美，甚至在ISIC和WBC等特定挑战上刷新了记录。

医学图像分割通常面临的挑战包括数据的多模态性、高复杂度以及缺乏足够的标注信息。

之所以使用TV-SAM，是因为它能通过结合语言和视觉模型的优势，解决上述挑战，尤其是在零样本学习场景下，无需依赖大量的标注数据即可实现准确的图像分割。

基于上文的介绍，我们可以将2 方法论部分拆解成如下中文解释和逻辑关系：

在这里插入图片描述
通过三个阶段说明了该过程：

该图包括一个流程图，描述了用户输入、语言模型以及导致分割结果的视觉提示之间的交互。

TV-SAM 方法包含三个主要阶段：文本提示生成、视觉提示创建、掩码解码。

文本提示生成（子解法1）
- 背景：需要生动描述医学图像中的医学概念。
- 特征：使用GPT-4作为知识来源，生成描述医学图像中医学概念的详细文本提示。
视觉提示创建（子解法2）
- 背景：基于提供的提示，识别医学概念的可能区域通常使用边界框格式。
- 特征：使用预训练的视觉语言模型(VLM)，如GLIP，自动生成视觉提示，实现零样本对象检测。
掩码解码（子解法3）
- 背景：使用视觉提示帮助SAM更准确地预测这些区域的分割掩码。
- 特征：采用SAM（分割注意力模型）进行零样本分割，特别是在医疗领域，采用盒式提示效果最佳。

具体阶段与技术细节：

GPT-4用于表达式提示设计
- 利用GPT-4生成详细的文本提示，通过图像和对话模板输入，结合视觉编码器和文本编码器提取特征，通过交叉注意力机制融合特征，最后通过解码器返回目标概念的具体信息。
通过VLM生成视觉提示
- 选择GLIP作为VLM，输入图像到GLIP图像编码器并结合之前获得的描述性提示，通过GLIP提示编码器获得特征，通过非最大抑制算法过滤和选择预测的边界框。
SAM零样本分割与视觉提示
- 在医学图像分割领域，盒式提示被证明特别有效。利用SAM模型，重新输入图像并将GLIP预测的边界框作为视觉提示输入SAM提示编码器，最后通过SAM掩码解码器生成准确的分割掩码。

通过这种方法，TV-SAM能够在仅有未标记医学图像和感兴趣的概念、对象或异常的情况下，自动执行这三个阶段并生成相应的分割掩码，有效提高医学图像分析的效率和准确性。

以肺结节的识别和分割为例：

GPT-4用于表达式提示设计:
- 在肺结节的例子中，GPT-4可以用来生成描述肺部图像中结节特征（如大小、形状、位置和可能的类型）的详细文本提示。
- 通过将肺部CT扫描图像和一个包含患者信息及疑似肺结节描述的对话模板输入GPT-4，模型能够通过视觉编码器从图像中提取高级特征，同时文本编码器从对话模板中提取文本特征。
- 通过交叉注意力机制，这些特征被融合，并通过解码器返回关于肺结节的具体信息，比如其可能的恶性或良性特征。
通过VLM生成视觉提示:
- 利用从GPT-4获得的详细描述性文本提示，GLIP模型能够对输入的肺部CT图像进行分析，自动识别并预测包含结节的区域。
- 这一步骤通过非最大抑制算法（NMS）来过滤和优化预测的边界框，确保仅选取最有可能包含肺结节的区域。
SAM零样本分割与视觉提示:
- 最后，将筛选后的边界框作为视觉提示输入到SAM模型中。
- SAM模型再次分析肺部CT图像，并使用这些视觉提示作为引导，通过其掩码解码器精确生成肺结节的分割掩码。
- 这一步不仅提高了分割的准确性，而且大大减少了手动标记数据所需的时间和专业知识要求。