图像分割模型LViT-- (Language meets Vision Transformer)

参考：LViT：语言与视觉Transformer在医学图像分割-CSDN博客

背景

指数伪标签迭代机制(EPI)：帮助像素级注意模块(PLAM)----在半监督LViT设置下保持局部图像特征
LV (Language-Vision)损失被设计用来直接使用文本信息监督未标记图像的训练
构建了包含x射线和CT图像的三个多模态医学分割数据集(图像+文本)
模型
- CNN (卷积神经网络)：处理输入的图像，提取局部特征。
- ViT (视觉Transformer)：利用Transformer结构，处理从CNN提取的特征，并结合来自文本嵌入的特征。
- BERT-Embed (BERT嵌入)：利用BERT模型对输入的文本进行嵌入，提取语义信息。
如何利用已有的图像-文本信息提高分割性能
- 使用嵌入层代替文本编码器获得文本特征向量（减少模型中参数的数量）
- 具有像素级注意模块(PLAM)的混合CNNTransformer结构能够更好地合并文本信息（CNN：局部特征；transformer：全局特征）
如何充分利用文本信息，保证伪标签的质量
- 伪标签迭代机制(Exponential Pseudo label Iteration mechanism, EPI)
  - 利用标记数据的标签信息和未标记数据的潜在信息
  - EPI间接结合文本信息，以指数移动平均线(EMA)的方式逐步完善伪标签[10]
- LV (Language-Vision) loss的设计目的是直接利用文本信息来监督未标记医学图像的训练。

双u型结构：u型CNN支路+u型Transformer支路

左面的红方框是Transformer支路，右面的红方框是CNN支路。

用于合并图像特征和文本特征
第一层DownViT模块接收BERT-Embed输入的文本特征和第一层DownCNN模块输入的图像特征。
BERT-Embed的预训练模型是BERT_12_768_12模型，它可以将单个单词转换为768维的单词向量。
跨模态特征合并操作
- CTBN块还包括Conv层、BatchNorm层和ReLU激活层，用于对齐 $x_{img}$ 、1和 $x_{text}$ 的特征维度。
- ViT由多头自注意组成
- LN表示归一化层
- 第2层、第3层和第4层的后续DownViT模块既接收上层DownViT模块的特征，又接收相应层的DownCNN模块的特征

旨在保留图像的局部特征，并进一步融合文本中的语义特征
并行分支：Global Average Pooling (GAP)，Global Max Pooling (GMP)
- 加法操作：合并具有相似语义的相应通道特征并节省计算
- 连接操作：更直观地整合特征信息，并有助于保留每个部分的原始特征
使用MLP结构和乘法操作来帮助对齐特征大小
PLAM通过增强局部特征来缓解Transformer带来的对全局特征的偏好
PLAM采用通道注意和空间注意相结合的方式（我的理解是通道注意力机制：PLAM，空间注意力机制：Transformer）

更新后的伪标签将用于无标签数据的训练，使得无标签数据可以像有标签数据一样为模型提供监督信息。这种方式能够有效利用大量的无标签数据，提高模型的泛化能力和鲁棒性。

初始生成：
- 使用有标签数据训练初始模型，生成伪标签。初始模型可以通过图中的Down CNN和Up CNN部分进行训练。
预测和更新：
- 在每一轮训练中，使用当前模型（例如图中的LViT模型）对无标签数据进行预测，生成新的伪标签。
- 通过EPI机制更新伪标签，逐步提高其质量。这一过程在图中没有具体表示，但它是数据处理的一部分。
再训练：
- 使用更新后的伪标签对模型进行再训练。模型结构可以包括图中的Down ViT和Up ViT部分，以及中间的PLAM模块。