第二十章:CANet:具有迭代细化和专注少样本学习的无类别分割网络

0.摘要

        最近在语义分割方面的进展是由深度卷积神经网络和大规模标注图像数据集推动的。然而,像素级别的数据标注是繁琐和昂贵的。此外,训练好的模型只能在一组预定义的类别中进行预测。在本文中,我们提出了CANet,一种无类别偏见的分割网络,可以在只有少量标注图像的情况下对新类别进行少样本分割。我们的网络由两个分支的密集对比模块和迭代优化模块组成,前者在支持图像和查询图像之间进行多层次特征比较,后者在预测结果上进行迭代优化。此外,我们引入了一种注意力机制,以在k-shot学习的设置下有效地融合来自多个支持示例的信息。在PASCAL VOC 2012数据集上的实验表明,我们的方法在1-shot分割和5-shot分割方面分别达到了55.4%和57.1%的平均交并比分数,相比于现有技术方法,分别提高了14.6%和13.2%。

1.引言

        深度卷积神经网络在许多视觉理解任务中取得了重大突破,包括图像分类[13,9,30]、物体检测[27,8,26]和语义分割[16,2,20]。其中一个关键原因是大规模数据集(如ImageNet [4])的可用性,使得深度模型的训练成为可能。然而,数据标注是昂贵的,特别是对于密集预测任务,如语义分割和实例分割。此外,训练好的模型很难应用于预测新类别。与机器学习算法相比,人类在只看到少数示例时就能轻松地从图像中分割出一个新概念。人类和机器学习算法之间的差距促使我们研究少样本学习,旨在学习一个模型,能够在稀缺标注训练数据的情况下很好地泛化到新类别。

        我们的网络包括一个两个分支的密集对比模块,其中一个共享的特征提取器从查询集和支持集中提取表示进行比较。密集对比模块的设计灵感来自于图像分类任务中的度量学习[37,31],其中距离函数评估图像之间的相似性。然而,与每个图像都有一个标签的图像分类任务不同,图像分割需要对具有结构化表示的数据进行预测。直接将度量学习应用于密集预测问题是困难的。为了解决这个问题,一种直接的方法是对所有像素对进行比较。然而,一幅图像中有数百万个像素,比较所有像素对的计算成本极高。相反,我们的目标是从支持图像中获取一个全局表示进行比较。全局图像特征在分割任务中被证明是有用的[19,40,3],可以通过全局平均池化轻松实现。在这里,为了只关注分配的类别,我们在前景区域上使用全局平均池化来过滤掉无关信息。然后将全局特征与查询分支中的每个位置进行比较,这可以看作是一种密集形式的度量学习方法。

        在少样本学习的设置下,网络应能处理在训练过程中从未见过的新类别。因此,我们的目标是从卷积神经网络中挖掘可转移的表示用于比较。正如特征可视化文献[39,38]所观察到的那样,低层次的特征与低级线索(如边缘和颜色)相关,而高层次的特征与对象级概念(如类别)相关。我们关注可能构成未见类别共享的对象部分的中层特征。例如,如果CNN在训练时学习到了一个与车轮相关的特征,这个特征在新的车辆类别(如卡车和公交车)上进行特征比较时也可能是有用的。我们从CNN中提取多层次的表示进行密集比较。

        由于同一类别内存在外观变化,同一类别的对象可能只共享少数相似的特征。密集特征比较不足以引导整个对象区域的分割。然而,这给出了一个重要的线索,即对象的位置。在半自动分割文献中,针对类别无关的分割给出了弱标注,例如带有点击或涂鸦标注的交互式分割[36,14]和带有边界框或极端点先验的实例分割[10,21]。在训练过程中学习到了定位对象区域的可转移知识。受到半自动分割任务的启发,我们希望在给定密集比较结果作为先验的情况下逐渐区分对象和背景。我们提出了一个迭代优化模块(IOM),它学习迭代地改进预测结果。改进以递归形式进行,即将密集比较结果和预测的掩膜发送到IOM进行优化,然后将输出递归地发送到下一个IOM。经过几次迭代的改进,我们的密集比较模块能够生成细粒度的分割图。在每个IOM内部,我们采用残差连接来有效地将预测的掩膜纳入到最后一个迭代步骤中。图1显示了我们的单次分割网络的概述。

        以前的k-shot分割方法基于1-shot模型,它们使用非可学习的融合方法来融合单个1-shot结果,例如对1-shot预测或中间特征进行平均。相反,我们采用了一种注意机制来有效地融合来自多个支持示例的信息。

        为了进一步减少少样本分割的标注工作量,我们探索了一种新的测试设置:我们的模型使用带有边界框标注的支持集来在查询图像中进行分割。我们在PASCAL VOC 2012数据集和COCO数据集上进行了全面的实验证明了我们网络的有效性。本文的主要贡献总结如下。

        • 我们开发了一种新颖的双分支密集比较模块,能够有效地利用来自CNN的多层特征表示进行密集特征比较。

        • 我们提出了一个迭代优化模块,以迭代的方式对预测结果进行改进。迭代改进的能力可以泛化到少样本学习中的未见类别,生成精细的分割图。

        • 我们采用了注意机制,有效地融合了k-shot设置中多个支持示例的信息,这优于非可学习的融合方法。

        • 我们证明,即使给定了带有弱标注(例如边界框)的支持集,我们的模型仍然可以达到与使用昂贵的像素级标注支持集相当的性能,这显著减少了少样本分割中新类别的标注工作量。

        • 在PASCAL VOC 2012数据集上的实验证明,我们的方法在1-shot分割和5-shot分割的平均交并比得分分别为55.4%和57.1%,分别比最先进的结果提高了14.6%和13.2%。

 图1 - 我们提出的单次分割网络的概览。我们的框架包括一个密集比较模块(DCM)和一个迭代优化模块(IOM)。只给定一个有注释的训练图像,我们的网络能够对具有新类别的测试图像进行分割,并迭代地优化结果。

2.相关工作

语义分割是将图像中的每个像素分类到一组预定义的类别中的任务[16,2,20,15,17]。最先进的方法基于完全卷积网络(FCN),通常使用经过预训练的用于分类的卷积神经网络(CNN)作为骨干架构。为适应密集预测的任务,全连接层被一个卷积层替代,该卷积层用于预测每个像素的标签为了捕捉抽象的特征表示,CNN采用连续的池化操作或卷积步幅来减小特征图的空间分辨率。然而,这与输出应具有高分辨率的密集预测任务相冲突。为了平衡输出分辨率和网络的感受野,常常在密集预测任务中使用扩张卷积[2]。扩张卷积删除最后几层中的下采样操作,并通过插入孔来扩大卷积滤波器的感受野。在我们的模型中,我们也采用了扩张卷积来保持空间分辨率。在全监督分割中,训练一个FCN模型需要大量昂贵的像素级标注图像,而且一旦训练好一个模型,它不能对新类别进行分割。相反,我们的模型可以通过只有少数标注示例来推广到任何新的类别。

少样本学习旨在学习可转移的知识,以便将其推广到具有稀缺标记训练数据的新类别。关于少样本分类存在许多形式,包括具有记忆的递归神经网络[28,23],学习微调模型[6,25],网络参数预测[1,35]和度量学习[31,37,11]。基于度量学习的方法在少样本分类任务中取得了最先进的性能,并且具有快速和前向预测的特点。我们的工作与关系网络[37]最相关。关系网络元学习了一个深度距离度量来比较图像并计算分类的相似度得分。网络包括一个嵌入模块,用于生成图像的表示,以及一个关系模块,用于比较嵌入并输出相似度得分。这两个模块都是卷积操作的形式。我们网络中的密集比较模块可以看作是在密集形式上扩展关系网络,以应对分割任务。

(“度量学习是一种机器学习方法,旨在通过学习一个度量(或距离)函数来衡量样本之间的相似性或差异性。度量学习的目标是通过学习一个有效的度量函数,使得在特征空间中相似的样本之间的距离较小,不相似的样本之间的距离较大。 传统的机器学习算法通常基于特征向量进行建模和分类,但在某些任务中,特征向量的表示可能不足以准确地衡量样本之间的差异。度量学习的思想是通过学习一个适当的度量函数,可以更好地捕捉样本之间的相似性和差异性,从而提高模型的性能。 度量学习可以根据任务的不同采用不同的学习策略和算法。常见的度量学习方法包括欧氏距离学习、马氏距离学习、核函数学习等。这些方法可以通过最大化类内距离、最小化类间距离或优化其他度量指标来学习适合任务的度量函数。 度量学习在许多领域中都有广泛的应用,如图像检索、人脸识别、聚类分析等。通过学习合适的度量函数,可以改善模型在相似性度量任务中的性能,提高模型的泛化能力和鲁棒性”)

少样本语义分割。之前关于少样本语义分割的工作采用了两个分支结构。Shaban等人[29]首次在语义分割中采用了少样本学习。支持分支直接预测查询分支中用于分割的最后一层的权重。在[24]中,支持分支生成一个嵌入,将其作为附加特征融合到查询分支中。我们的网络也采用了两个分支的设计。然而,与之前的工作不同,我们网络中的两个分支共享相同的骨干网络。之前的方法中的模型主要关注1-shot的设置,当将1-shot扩展到k-shot时,它们独立地将1-shot方法应用于每个支持示例,并使用不可学习的融合方法在图像级别或特征级别融合单个预测结果。例如,Shaban等人[29]提出使用逻辑或操作来融合单个预测的掩码,Rakelly等人[24]对不同支持示例生成的支持分支中的嵌入进行平均。相反,我们采用了一种可学习的方法,通过注意机制有效地融合多个支持示例的信息。

3.任务描述

        假设我们的模型在一个包含类别集合Ctrain的数据集上进行训练,我们的目标是使用训练好的模型在一个包含新类别Ctest的不同数据集上进行预测,其中只有少量标注样本可用。直观地说,我们训练模型使其具有以下能力:对于一个新类别c不属于Ctrain,当模型只看到这个类别的少量图片时,能够从图像中分割出该类别。一旦模型训练完成,参数被固定,并且在新数据集上测试时不需要进行优化。我们使用情节范式[33]来处理少样本场景,以使训练和测试保持一致。具体而言,给定一个k-shot学习任务,每个情节由以下两部分组成:

        1)一个支持(训练)集S=f(xi s;ysi(c))gk i=1,其中xi s i s 2 RHi×Wi×3是一个RGB图像,ysi(c)2 RHi×Wi是支持图像中类别c的二进制掩码;

        2)一个查询(测试)集Q=fxq;yq(c)g,其中xq是查询图像,yq(c)是查询图像中类别c的真实掩码。        

        模型的输入是支持集S和查询图像xq,输出是查询图像中类别c的预测掩码y^q(c)。由于一个查询图像xq中可能有多个类别,当分配不同的标签c时,其真实查询掩码也会不同。图1显示了k=1时任务的示意图。

4.方法

        我们提出了一个解决少样本语义分割问题的新框架。为了不失一般性,我们首先介绍了1-shot设置下的模型示意图。我们的网络由两个模块组成:密集比较模块(DCM)和迭代优化模块(IOM)。DCM在支持示例和查询示例之间进行密集特征比较,而IOM对预测结果进行迭代优化。图2(a)显示了我们框架的概述。为了将我们的网络从1-shot学习推广到k-shot学习,我们采用了一种注意机制来融合不同支持示例的信息。此外,我们提出了一种新的测试设置,使用带有边界框注释的支持图像进行少样本分割,随后将进行描述。

        我们开发了一个两分支的密集比较模块,它密集地比较查询图像中的每个位置与支持示例,如图2(b)所示。该模块由两个子模块组成:特征提取器用于提取表示,比较模块用于执行特征比较。

4.1.密集比较模块

        我们开发了一个两分支的密集比较模块,它密集地比较查询图像中的每个位置与支持示例,如图2(b)所示。该模块由两个子模块组成:特征提取器用于提取表示,比较模块用于执行特征比较。

特征提取器特征提取器旨在从CNN中获取不同层次的表示以进行特征匹配。我们使用ResNet-50作为特征提取器的主干网络。与之前的少样本分割工作一样,主干模型在ImageNet上进行了预训练。根据CNN特征可视化文献的观察,低层次的特征通常与低级线索(例如边缘和颜色)相关,而高层次的特征与对象级别的概念(如对象类别)相关。在少样本场景中,我们的模型应该适应任何未见过的类别。因此,我们不能假设在训练过程中学习到了与未见类别对应的特征。相反,我们专注于可能构成未见类别共享的对象部分的中层特征。ResNet中的层根据空间分辨率分为4个块,自然对应着4个不同层次的表示。我们选择block2和block3生成的特征进行特征比较,并在block3之后丢弃其他层。我们在block2之后的层使用扩张卷积来保持特征图的空间分辨率。block2之后的所有特征图都具有固定的尺寸,为输入图像的1/8。block2和block3之后的特征被连接并通过3×3卷积编码为256维。我们在第5.1.3节中研究了特征选择的影响。支持分支和查询分支都使用相同的特征提取器。在训练过程中,我们保持ResNet的权重固定。

密集比较。由于支持图像中可能存在多个对象类别和杂乱的背景,我们希望获得一个仅与目标类别相对应的嵌入向量进行比较。在这里,我们使用全局平均池化来将特征图压缩为特征向量。全局图像特征在分割任务中被证明是有用的[19,40,3],可以通过全局平均池化轻松实现。在我们的网络中,我们只对前景区域的特征进行平均,以滤除不相关的区域。在我们从支持集中获得全局特征向量之后,我们将该向量与查询分支生成的特征图中的所有空间位置连接起来。这个操作旨在将查询分支中的所有空间位置与来自支持分支的全局特征向量进行比较。然后,连接后的特征图通过另一个具有256个3×3卷积核的卷积块进行比较。

        为了实现高效,我们首先使用双线性插值将二值化的支持掩码下采样到与特征图相同的空间尺寸,然后将其与特征图进行逐元素乘法。结果是属于背景区域的特征变为零。然后,我们采用全局求和池化,并将结果向量除以前景区域的大小,以获得平均特征向量。我们将该向量上采样到与查询特征相同的空间尺寸,并将它们连接起来进行密集比较。

图2 - 1-shot语义分割的CANet。(a)我们网络结构的概述。(b)密集比较模块。(c)迭代优化模块。

图3 - k-shot语义分割的注意机制。我们使用softmax函数来对不同支持示例的注意模块的输出进行归一化处理。

4.2.迭代优化模块

        由于同一类别内存在外观上的差异,密集比较只能匹配物体的一部分,这可能不足以准确地分割图像中的整个物体。我们观察到初始预测是关于物体大致位置的重要线索。因此,我们提出了一个迭代优化模块来迭代地优化预测结果。该模块的结构如图2(c)所示。该模块的输入是由密集比较模块生成的特征图和上一次迭代的预测掩码。直接将特征图与预测掩码进行连接作为额外的通道会导致特征分布不匹配,因为第一次前向传播没有预测掩码。因此,我们提出以残差形式将预测掩码纳入模块中:

 其中,x是密集比较模块的输出特征;yt−1是上一次迭代步骤的预测掩码,Mt是残差块的输出。函数F(·)是特征x和预测掩码yt−1的串联,接着是两个具有256个卷积核的3×3卷积块。然后,我们添加两个具有相同数量卷积核的普通残差块。在此基础上,我们使用在Deeplab V3 [3]中提出的Atrous空间金字塔池化模块(ASPP)来捕捉多尺度信息。该模块由四个并行分支组成,分别包括三个带有6、12和18的空洞率的3×3卷积和一个1×1卷积。1×1卷积操作的是在全局平均池化下获得的图像级特征。然后,将得到的向量进行双线性上采样到原始空间尺寸。4个分支的输出特征进行串联,并通过具有256个卷积核的另一个1×1卷积进行融合。最后,我们使用1×1卷积生成最终的掩码,其中包括背景掩码和前景掩码。我们使用softmax函数对每个位置的得分进行归一化,输出前景和背景的置信度图。然后,将置信度图输入到下一个IOM进行优化。我们的最终结果通过将置信度图双线性上采样到与查询图像相同的空间尺寸,并根据置信度图对每个位置进行分类来得到。在训练时,为了避免迭代优化模块过拟合预测掩码,我们交替使用上一轮的预测掩码和空掩码作为IOM的输入。预测掩码yt−1以概率pr被重置为空掩码。这可以看作是整个掩码的dropout,是标准dropout [32]的扩展。与分割文献中以前的迭代细化方法[14,34,22]相比,我们的方法将细化方案与具有残差连接的模型集成在一起,使整个模型能够以前馈的方式运行,并进行端到端的训练。

图4 - (a) 使用像素级注释的CANet支持集。(b) 使用边界框注释的CANet支持集。

4.3.用于k-shot分割的注意力机制

        为了在k-shot环境中高效地融合信息,我们使用注意力机制来融合不同支持示例生成的比较结果。具体来说,我们在DCM中的密集比较卷积旁边添加了一个注意力模块(参见图3)。注意力分支由两个卷积块组成。第一个卷积块具有256个3×3的卷积核,接着是3×3的最大池化。第二个卷积块具有一个3×3的卷积核,后面是一个全局平均池化。注意力分支的结果作为权重λ。然后,所有支持示例的权重通过softmax函数进行归一化:

 最终的输出是由不同支持示例生成的特征的加权和。

4.4.边界框标注

        由于我们密集比较模块的本质是将查询图像中的每个位置与支持示例提供的全局表示进行密集比较,我们探索了一种新的支持集注释形式,即使用边界框。与像素级注释相比,边界框注释使用矩形框来表示对象区域,这在目标检测任务中经常使用。标注边界框注释比像素级标注更便宜。我们通过将整个边界框区域视为前景来放松支持集。我们在这个设置下测试我们的模型,以评估我们框架的能力。两个测试设置的比较结果如图4所示。

表1 - 在PASCAL-5i数据集上的结果。我们提出的方法在两个评估指标下均优于所有先前的方法,并取得了新的最先进性能(加粗显示)

5.实验

        为了评估我们提出的方法的性能,我们在PASCAL VOC 2012数据集和COCO数据集上进行了大量实验。我们的网络是端到端训练的。损失函数是输出图中所有空间位置上交叉熵损失的平均值。我们使用PyTorch库在Nvidia Tesla P100 GPU上使用SGD进行了200个epoch的训练。我们将学习率设置为0.0025,并将概率pr设置为0.7。在PASCAL-5i上,我们使用一个包含4个episode的小批量进行训练,在COCO上使用8个episode。在推理时,我们在初始预测之后进行4次迭代优化预测结果。

评估指标。以前的工作在评估指标上有一些细微的差异。Shaban等人[29]使用每个类别的前景交并比(IoU)来衡量,并使用所有类别的平均IoU(meanIoU)来报告结果。而在[24,5]中,他们忽略了图像的类别,并计算了所有测试图像上前景IoU和背景IoU的平均值(FB-IoU)。由于以下原因,我们选择meanIoU评估指标进行分析实验:

        1)不同类别的测试样本数量不平衡(例如,类别sheep有49个样本,而类别person有378个样本)。忽略图像的类别可能导致对具有更多图像的类别的结果有偏见。此外,我们可以通过meanIoU评估指标观察我们模型在不同类别中的有效性。

        2)由于大多数对象相对于整个图像来说都很小,即使模型无法对任何对象进行分割,背景IoU仍然可以非常高,因此无法反映模型的能力。

        3)二值分割文献中更常用的是前景IoU(例如视频分割和交互式分割)。

        尽管如此,我们仍然在两个评估指标下将我们的结果与以前的工作进行比较。

5.1.PASCAL-5i

        PASCAL-5i是在[29]中提出的用于少样本语义分割的数据集。它基于PASCAL VOC 2012的图像和来自SDS [7]的额外注释构建而成。PASCAL VOC的20个对象类别被均匀分为4个拆分,其中三个拆分用于训练,一个拆分用于测试。在测试时,从测试拆分中随机选择1000个支持-查询对进行采样。关于PASCAL-5i的更多细节可以在[29]中找到。

表2 - 使用不同支持集注释的评估结果。我们的模型使用边界框注释的支持集可以达到与使用像素级注释相当的性能。

5.1.1.与现有技术方法的比较

        我们在表1中将我们的模型与最先进的方法进行了比较。表1(a)显示了在meanIoU评估指标下的结果,表1(b)显示了在FB-IoU评估指标下的结果。对于[29]在FB-IoU评估指标下的性能,我们引用了在[24]中重新复现的结果。我们的模型在两个评估指标下都显著优于最先进的方法。特别是,我们的meanIoU得分在1-shot任务中比最先进的结果高出14.6%,在5-shot任务中高出13.2%。

 定性结果。图5展示了我们分割结果的一些定性示例。请注意,对于给定的相同查询图像,在呈现不同的支持示例时,我们的模型能够分割出不同的类别(请参见图5中的第5个和第6个示例)。

5.1.2.边界框标注的实验

        我们在测试时使用带有边界框注释的支持集对CANet进行评估。我们从PASCAL VOC 2012数据集和SDS [7]中获取边界框注释。支持掩码是一个实例边界框内的区域,而不是支持图像中的所有实例。实例是随机选择的。如表2所示,使用边界框注释的支持集的性能与使用昂贵的像素级注释的支持集的结果相当,这意味着我们的密集比较模块能够承受边界框内背景区域引入的噪声。

5.1.3.消融研究

        我们在PASCAL-5i数据集上进行了大量的消融实验,以检查我们网络中不同组件的有效性。所有结果都是在PASCAL-5i数据集的4个拆分上的平均mean IoU。

特征比较。在表3中,我们比较了使用ResNet-50中不同级别特征进行特征比较的模型变体。在所有情况下,我们将特征编码为256维进行比较,并且不采用迭代优化。我们使用单个块和多个块进行特征比较。当使用单个块进行比较时,block3表现最好。当使用多个块进行比较时,block2和block3的组合获得最佳结果。原因是block2对应相对低层次的线索,单独使用不足以匹配物体的部分。而block4对应高层次的特征,例如类别,并且包含大量参数(2048个通道),在少样本设置下很难优化。block2和block3的组合最适合匹配类别无关的物体部分。我们还使用VGG16作为特征提取器进行了实验。我们选择了第2、3和4阶段的特征(共5个阶段)。以VGG为骨干的最终多尺度测试结果为54.3%。与ResNet50版本(55.4%)相比,性能仅下降了1.1%,仍然明显优于最先进的结果。

迭代优化模块。为了验证我们提出的迭代优化模块的有效性,我们将我们的网络与不使用额外IOM进行优化的基线模型进行了比较,即CANet的初始预测(CANet-Init)。我们还将我们的迭代优化方案与DenseCRF [12]进行了比较,DenseCRF是在分割文献中广泛使用的一种后处理方法,用于改进分割图。表4显示了不同模型变体的结果。结果显示,迭代优化相对于初始预测提高了2.8%。DenseCRF并没有显著改善少样本分割预测。我们可视化了结果,并发现对于成功定位大部分物体区域的预测掩码,DenseCRF可以有效改善分割结果,特别是在物体边界区域。然而,对于失败的掩码,例如物体的错误定位,DenseCRF会扩展错误的正例区域,这会降低IoU分数。而我们的IOM则可以以可学习的方式有效填充物体区域并移除不相关的区域。我们在图6中可视化了迭代优化过程的中间结果。

注意力机制 vs 特征融合 vs 掩码融合。在k-shot设置中,我们将我们的注意力机制与先前工作中的几种解决方案进行了比较:

        1)特征级平均融合。我们尝试了[24]中的方法,即对不同支持样本生成的特征进行平均。

        2)掩码的逻辑OR融合。Shaban等人[29]使用1-shot模型对每个支持样本进行预测,并使用逻辑OR操作来融合各个预测掩码。逻辑OR操作的意思是,如果任何支持样本将某个位置预测为前景,则将其预测为前景。

        3)掩码的平均融合。

        此外,我们还尝试了平均操作来融合各个1-shot预测的置信度图。在表5中报告了使用不同融合方法的CANet的结果。我们的注意力机制表现最好,并且相对于1-shot基线带来了最大的增益。这表明,学习的注意力模块在从不同的支持样本中融合信息方面比特征级别或图像级别的不可学习的融合方法更有效。使用逻辑OR操作来融合预测的掩码与1-shot结果相比没有显示出改进。

多尺度评估。我们还尝试了常见的分割文献中常用的多尺度评估方法。具体而言,我们通过[0.7, 1, 1.3]对查询图像进行重新缩放,并对它们的预测结果进行平均。多尺度评估在1-shot和5-shot设置中分别提高了1.4%和1.3%的平均IoU。

表3 - 对ResNet中特征选择的消融实验。在block2和block3之后的特征组合取得了最好的结果。

表4 - 对迭代优化模块的消融实验。CANet-Init表示CANet的初始预测,没有额外的优化。我们的迭代优化方案比基线模型提高了2.8%,在细化分割图方面比DenseCRF更有效。

图5 - 在PASCAL-5i数据集上进行1-shot分割的定性示例。

第一行是查询图像和带有真值注释的支持图像(右下角)。

第二行是我们的预测结果。

请注意,第5个和第6个示例具有相同的查询图像,当呈现不同的支持示例时,我们的模型能够分割出不同的类别。

图6 - 迭代优化过程的可视化。

第一列显示了带有真值掩码注释的查询和支持图像。

其余列显示了我们的迭代优化结果。

表5 - 不同5-shot解决方案的比较。我们的注意力方法表现最好,并且在平均IoU得分上相对于1-shot基线带来了最大的增量。

5.2.COCO

        COCO 2014 [18]是一个具有挑战性的大规模数据集,包含80个物体类别。原始数据集分别包含82,783张用于训练和40,504张用于验证的图像。直接在原始数据集上进行实验非常耗时和计算量大。因此,我们选择原始数据集的一个子集来评估我们的模型并进行进一步的研究。我们选择了40个类别用于训练,20个类别用于验证,另外20个类别用于测试,分别包含39,107个样本(训练集),5,895个样本(验证集)和9,673个样本(测试集)。训练图像来自COCO的训练集,而验证和测试图像来自COCO的验证集。对于1-shot任务,我们将我们的网络与不使用额外迭代优化的基线模型(CANet-Init)进行了比较,对于5-shot任务,我们将我们的注意力机制与第5.1.3节中描述的三种不可学习的融合方法进行了比较。结果如表6所示。在1-shot设置中,我们的迭代优化方案提高了4.1%的平均IoU。多尺度评估显示额外的3.3%增益。在5-shot设置中,我们的注意力机制优于所有不可学习的方法。多尺度评估获得了额外的1.9%增益。

(1-shot任务和5-shot任务是指在机器学习和深度学习中的一种学习范式,特别是在元学习(meta-learning)和迁移学习(transfer learning)领域中常被使用。 1-shot任务指的是在模型只有一次机会观察到一个样本(或一个样本集合)的情况下进行学习和推断。在这种情况下,模型需要根据这个样本来进行预测或分类。例如,在图像分类中,1-shot任务可能是指模型只能从一个类别的一张图像中学习,然后在给定一个测试图像时,进行分类的任务。 5-shot任务则是在模型有五次机会观察到样本(或样本集合)的情况下进行学习和推断。在这种情况下,模型可以从多个样本中学习和获取更多的信息,然后在测试时进行预测或分类。以图像分类为例,5-shot任务可能是指模型可以从每个类别中观察到五张图像,然后在测试时对未见过的图像进行分类。 这些任务的目标是评估模型在极端小样本情况下的学习和泛化能力。通过设计和评估这些任务,可以更好地了解模型在面对少量样本时的表现,并研究如何设计更加鲁棒和高效的学习算法。同时,这些任务也提供了对迁移学习和元学习方法进行评估和比较的基准。)

6.总结

        我们提出了CANet,一种新颖的无类别分割网络,具有少样本学习的能力。密集对比模块利用CNN中的多个特征层级来进行密集特征对比,而迭代优化模块则学习迭代地优化预测结果。我们解决k-shot问题的注意力机制比不可学习方法更有效。综合实验证明了我们框架的有效性,并且性能明显优于所有先前的工作。

表6 - 平均评估

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/1017.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

现代化 Android 开发:Jetpack Compose 最佳实践

作者:古哥E下 如果一直关注 Compose 的发展的话,可以明显感受到 2022 年和 2023 年的 Compose 使用讨论的声音已经完全不一样了, 2022 年还多是观望,2023 年就有很多团队开始采纳 Compose 来进行开发了。不过也有很多同学接触了下 Compose&am…

基于深度学习的高精度鸟类目标检测识别系统(PyTorch+Pyside6+YOLOv5模型)

摘要:基于深度学习的高精度鸟类目标(鹦鹉(Crested Myna)、麻雀(Eurasian Tree Sparrow)、黑头文鸟(Chestnut Munia)、白领翡翠(Collared Kingfisher)、太阳鸟…

Redis深入——管道、发布订阅、主从复制、哨兵监控和集群

前言 在前面的学习中,我们已经了解了Redis的基本语法以及Redis持久化和事务的概念。而在这篇文章中我们继续来梳理管道、发布订阅、主从复制、哨兵监控和集群的知识,理解Redis主从复制到集群分片的演进过程,希望对正在学习的小伙伴有一定的帮…

C语言—数据类型

文章目录 1 基本数据类型2 数组,字符数组和字符串2.1 数组2.2 字符数组与字符串 3 枚举类型4 结构体和共用体4.1 结构体4.2 共用体 5. 拓展5.1 结构体内存分配5.1.1 以结构体中占字节数最大的数据类型的字节数为单位开辟内存5.1.2 字节对齐5.1.3 结构体中嵌套结构体…

区块链生态发展

文章目录 前言以太坊的到来什么是图灵完备?什么是智能合约? 以太坊的应用去中心化应用 DApp代币发行 公有链&联盟链区块链应用总结 前言 前面的区块链文章有介绍区块链的诞生以及底层运行原理, 本文主要介绍一下区块链应用的发展&#x…

ensp静态路由

要求: 1.全网可达 2.拓朴中所需地址全部基于192.168.0.0/24 3.静态路由(不许使用其他动态) 4.R2环回需要汇总 拓朴图: 将192.168.0.0/24划分为5个子网, 得: 192.168.0.0/27 192.168.0.32/27 192.168.0.64/…

论文笔记--TinyBERT: Distilling BERT for Natural Language Understanding

论文笔记--TinyBERT: Distilling BERT for Natural Language Understanding 1. 文章简介2. 文章概括3 文章重点技术3.1 Transformer Distillation3.2 两阶段蒸馏 4. 数值实验5. 文章亮点5. 原文传送门6. References 1. 文章简介 标题:TinyBERT: Distilling BERT fo…

媒体邀约:企业新品发布会如何邀约记者到现场采访报道?

媒介易是国内领先的全媒体广告营销平台,专注全媒体营销平台创新服务。我们有超过近11年的实战经验,我们拥有丰富的媒体记者资源,关于邀约记者到现场采访,我们会采取以下步骤: 1、提前策划:在发布会前至少…

6.溢出的文字省略号显示

6.1单行文本溢出显示省略号 必须满足三个条件 /*1. 先强制一行内显示文本*/ white-space: nowrap; &#xff08; 默认 normal 自动换行&#xff09; /*2. 超出的部分隐藏*/ overflow: hidden; /*3. 文字用省略号替代超出的部分*/ text-overflow: ellipsis;【示例代码】 <…

Azure Kinect DK 在设备管理器找不到此设备

参考 Azure Kinect DK 在设备管理器找不到此设备_Thomas_yx的博客-CSDN博客 type-c------------------type-c 接电脑&#xff0c;数据传输 圆------------------usb 电脑线

“AI+教育”:景联文科技高质量教育GPT题库助力教学创新

去年年底&#xff0c;OpenAI推出ChatGPT&#xff0c;掀起AI热潮&#xff0c;教育作为“AI”应用落地的关键场景&#xff0c;再次受到广泛关注。 “AI教育”的快速发展&#xff0c;是受到技术、需求和政策三重因素共同驱动的结果。 在技术方面&#xff0c;随着人工智能技术的不断…

CnosDB x LangChain: 聊着天来查询时序数据库

本篇我们将主要介绍如何使用 LangChain 连接 CnosDB 数据库&#xff0c;实现使用自然语言和数据库的交流。 大模型等的相关话题已经霸榜半年有余&#xff0c;在讨论关注之余&#xff0c;CnosDB技术团队将大模型与人工智能相关技术与数据库开发与实践进行融合。继CnosDB全面整合…

第三方ipad电容笔哪个品牌好用?平板电容笔推荐

可能很多人都认为&#xff0c;苹果原装的电容笔&#xff0c;是不可取代&#xff0c;但我认为&#xff0c;这还要看个人的预算&#xff0c;以及实际的需求。苹果Pencil对于那些不太讲究画质的用户来说实在是太贵了&#xff0c;要是我们仅用于书写上&#xff0c;其实我们可以用平…

编程导航算法通关村第 1关 | 单链表的操作

编程导航算法通关村第 1关 | 链表的操作 文章目录 编程导航算法通关村第 1关 | 链表的操作单链表链表的定义初始化链表的遍历获取链表的长度链表的插入链表的节点的删除 双向链表节点的定义双向链表的定义节点的打印获取长度头部插入元素尾部插入元素链表的删除 单链表 链表的…

jenkins发布使用邮件添加审批

首先安装好Email Extension Plugin插件并在 system下配置好邮件 然后配置流水线需要的参数 ![在这里插入图片描述](https://img-blog.csdnimg.cn/418fc89bfa89429783a1eb37d3e4ee26.png#pic_center pipeline如下&#xff1a; def skipRemainingStages false //是否跳过生…

采集发布到WordPress网址(OneNav主题-WordPress主题)

WordPress系统的一导航主题&#xff08;OneNav主题&#xff09;是集网址、资源、资讯于一体的导航主题。 要将采集的数据批量自动发布到一导航主题&#xff08;OneNav主题&#xff09;的网址要怎么设置&#xff1f; 普通的文章采集器一般只能发布为wordpress文章类型&#xff…

自监督语义分割面模型——Masked Autoencoders Are Scalable Vision Learners(MAE)论文阅读

1、摘要 This paper shows that masked autoencoders (MAE) are scalable self-supervised learners for computer vision. Our MAE approach is simple: we mask random patches of the input image and reconstruct the missing pixels. It is based on two core designs. F…

SpringBoot使用JWT进行身份验证

JWT身份验证的流程 用户登录&#xff1a; 用户向服务器提供他们的用户名和密码。 服务器验证&#xff1a;服务器接收到请求&#xff0c;验证用户名和密码。 生成JWT&#xff1a;如果用户名和密码验证通过&#xff0c;服务器将创建一个 JWT。 JWT 包含了一些数据&#xff08;称…

[JVM] 5. 运行时数据区(2)-- 程序计数器(Program Counter Register)

一、概述 JVM中的程序计数器&#xff08;Program Counter Register&#xff09;是对物理PC寄存器的一种抽象模拟。它是一块很小的内存空间&#xff0c;几乎可以忽略不记。也是运行速度最快的存储区域。在 JVM 规范中&#xff0c;每个线程都有它自己的程序计数器&#xff0c;是…

redis之主从复制、哨兵、集群

文章目录 一、redis的高可用1.1 redis高可用的概念1.2 Redis的高可用技术 二、redis 主从复制2.1主从复制的原理2.2搭建Redis 主从复制 三、Redis 哨兵模式3.1搭建Redis 哨兵模式3.2启动哨兵模式3.3查看哨兵信息3.4故障模拟 四、Redis 群集模式4.1搭建Redis 群集模式 一、redis…