基于金字塔视觉变换的类引导网络高分辨率遥感图像高效语义分割

Class-Guidance Network Based on the Pyramid　Vision Transformer for Efﬁcient Semantic
Segmentation of High-Resolution　Remote Sensing Images

摘要

多分类语义分割中类之间的小差异和类内的大变化是全卷积神经网络的“编码器-解码器”结构没有完全解决的问题，导致对容易混淆的类别的不精确感知。为了解决这个问题，在本文中，我们认为足够的上下文信息可以为模型提供更多的解释线索。此外，如果我们能够挖掘每个语义类的类特定感知信息，我们可以在解码过程中增强属于相应类的信息。因此，我们提出了基于金字塔视觉变压器（PVT）的类引导网络。具体来说，以PVTA为编码器网络，接下来的解码过程由三个阶段组成。首先，我们设计了一个ＲＦＢ，利用并行分支处理和不同的扩张率将接收场扩展到不同的程度。其次，我们提出了一个语义引导块ＳＧＢ，利用高级特征来引导低级特征的通道增强。第三，我们提出了类引导块来实现相邻特征的类感知引导ＣＧＢ，并通过渐进方法实现细化分割。根据波茨坦和瓦辛根数据集的实验发现，该方法的总体准确率分别为88.91%和88.87%。

一、导言

随着高分辨率遥感地球观测的快速发展和卫星数据分辨率的不断提高，遥感影像的鲁棒语义分割对于地球观测[1]、土地利用[2]、土地覆盖[3]和城市规划[4]、[5]至关重要．

在更早的时代，传统的machine-learning-based技术试图利用少量的手工特征（即形状、纹理和颜色）来实现分割遥感影像中地物的数字对象标识符。然而，各种地物的复杂分布使得保持鲁棒性和泛化变得困难，导致精度和移动性差[6]、[7]、[8]。很久以前，由于特征表示能力强，以卷积神经网络（CNN）为代表的深度学习方法被引入遥感影像的语义分割，并取得了巨大的进展。 [9]受限于初始CNN的固定输入大小，全卷积神经网络（FCN[10]）被提出来成功地解决了这一问题，同时FCN的"编码器-解码器"结构已经成为当前深度学习方法的主流框架，详细来说，编码器旨在通过执行一系列卷积运算来产生多级特征，解码器专注于聚合编码特征的有用信息并将其融合以输出最终分割结果．

基于这样的“编码器-解码器”框架，近年来出现了众多网络，它们总是采用公共骨干网作为编码器，如VGG[11]、ResNet[12]和DenseNet[13]，并在解码器中采用各种策略来克服巨大的类内方差和较小的类间差异带来的挑战。起初，由于只有光谱信息不足以区分地面物体和复杂的周围环境，因此利用多尺度背景信息来辅助地面物体的识别[14]，一些研究人员已经尝试了很多通过多尺度训练或特征融合来有效获取和融合多尺度信息，这可以解决场景物体大小不一带来的问题。随后，一些研究[15]、[16]试图从全局角度建立远距离依赖，以获取足够的全局上下文信息。

此外，由于卷积运算的感受域有限，已经提出了许多扩展感受域和丰富上下文信息的工作。HRNet[17]采用并行方法来保持高分辨率表示并融合多个特征。U-Net[18]通过跳过连接将深层语义信息与浅层详细信息结合起来，然而，它只能从单个尺度输出特征。一些网络利用扩张卷积或反卷积以在各个级别扩展感受野，以提供更全面的空间上下文建模，以改进多尺度特征表示[19]、[20]、[21]、[22]。DeepLabV3+[23]开发了atous空间金字塔池（ASPP）以捕获各种尺度的上下文信息，并使用具有不同扩张率的多个平行层atous卷积允许atous卷积生成的特征图具有与输入相同的分辨率，使每个输出神经元在不增加核参数数量的情况下具有更大的感受野大小。为了建立局部和全局的关系，并获得更多的尺度上下文信息，用更高层次的语义学对模型进行编码，以获得不同的接收域信息。PSPNet[24]引入金字塔池模块（PPM）来聚合来自多个接收域大小的信息，并对不同区域的全局上下文信息进行整合，通过上采样将其分配给每个像素获得了优秀的像素和预测结果，但计算效率相对较差。 ABCNet[25]通过双边架构捕捉高分辨率遥感图像中丰富的空间细节和全局上下文信息，并设计特征聚合模块来融合两条路径获得的特征，但上下文路径呈现复杂的参数和计算。MANet[26]采用不同扩张率和全局平均池化（GAP）的两层无角卷积并行提取多尺度上下文信息，以解决遥感图像中目标大小差异大的问题，并嵌入通道注意机制来融合语义特征。变压器[27]，[28]，[29]以其通过自聚焦获得全局上下文知识的能力在最近的视野中大放异彩。一般来说，CNN的成功取决于其两个固有的归纳偏差，即平移不变性和局部相关性。视觉转换器的结构中通常不存在这一特征，导致需要大量数据来超越CNN的性能。一般来说，CNN可以获得更有效的局部特征。[30]然而，CNN有限的接收场使得获取全局信息具有挑战性，而转换器可以捕获长距离依赖关系。因此，通过组合CNN和变压器，网络结构可以最好地保留局部和全局特征，同时继承每个特征的好处。 STransFus[31]将swin变换器模型与预训练的Resnet34相结合作为CNN主干，并使用分段模型提供丰富的粗粒度和细粒度特征表示。ICTNet[32]解码设计swin变换器块和卷积块（CB）部署和交错提取特征，以及编码器阶段的编码特征聚合。CCTNet[30]结合了CNN和变换器分支捕获的本地和全局上下文信息，以避免破坏它们各自的特征。基于前述，我们将金字塔结构引入变换器框架（PVT，金字塔视觉变换器）[33]以生成多尺度特征图。 PVT仍然生成一个全局感受场，它更适合语义分割等内涵预测任务。与ViT[34]相比，[35]，它也使用非卷积模型来代替CNN主干，具有学习高分辨率表示的优势，同时还开发了渐进收缩金字塔和空间缩减注意力层，以降低计算成本和资源消耗[33]。

与前人的工作不同，我们认为由于遥感图像中存在较小的类间方差和大的类内方差，更容易出现误分类和遗漏。为了解决这个问题，在本文中，我们从两个角度进行探讨。一方面，我们认为遥感图像覆盖的地物范围很广，足够的上下文信息可以为模型提供更多的解释线索。另一方面，如果我们能够挖掘每个语义类的类特定感知信息，我们就可以在解码过程中增强属于相应类的信息。因此，我们提出了基于PVT的类-导网络。详细地说，PVT-v2-b2作为编码器网络，CNN作为解码器，将避免破坏CNN和变压器各自的特性。下面的解码过程由三个阶段组成。首先，参考实践[36]，多尺度上下文信息对增强编码特征具有重要意义。一般情况下，每一层的感受域是固定的，这会丢失一些信息，失去区分不同视域的能力，例如中心附近的重要部分。此外，根据[20]，感受野中的像素对神经节点输出的贡献是不一样的，更具体地说，感受野中心的像素的贡献更大。因此，基于这些，我们使用类似于inception[37]和ASPP[23]的思想设计了一个感受野块（RFB），我们利用不同核大小的多分支池化结构，并利用对偏心的无定形卷积。第二，由于粗糙的上采样操作，地理对象的空间位置和边界信息严重丢失，导致结构不完整和边界粗糙。同时，大多数网络的特征表示能力不足以应对容易混淆的地理对象。[16]然而，高级语义特征和低级视觉特征之间存在固有的语义差异，直接融合不同级别的特征会导致表示错误。鉴于上述问题，我们提出了语义引导块（SGB），利用高级特征来引导通道中低级特征的增强。并为每个通道学习一个自适应权重，以确定哪些通道需要更多关注。第三，当发现对高层特征进行直接多层卷积运算得到的分割结果比较粗糙时，我们建立了一种类感知引导机制，通过一种新颖的类引导块（CGB）挖掘类感知信息，即利用粗分割结果引导融合两个相邻特征进行更精细的分割。

在本文中，将变换器的全局上下文与CNN的局部细节相结合将有助于提高遥感图像语义分割模型的质量，本文的结果具有以下三个明显的特点。

1）设计了多尺度感受野扩展模块，以获得更丰富的上下文信息。

2）通过类别关系矩阵提高前景的感知；

3）CGB逐层引导特征融合和增强，输出更精细的分割结果。

二、方法

如图1所示，我们提出的基于PVT的类制导网络的总体架构基于典型的编码器-解码器结构。特别是，我们采用预训练的PVT-v2-b2作为编码器网络，从输入的遥感图像中提取多级编码特征。之后，我们开发了一套新颖而强大的解码策略来解释多级编码特征。

整个解码过程可以分为以下三个阶段。

1）在第一阶段，为了实现多尺度上下文信息的提取，我们引入了一个RFB来扩展感受域，丰富每一层特征的多尺度上下文信息。

2）在第二阶段，我们提出了SGB来利用最高级别的语义信息来实现对其他低级特征的增强。

3）在第三阶段，在分割结果相对粗糙的情况下，我们提出了CGB来实现相邻特征的类感知引导，并输出精细的分割结果。

表I提议网络的详细架构

基于渐进式策略，我们最终可以获得详细的分割结果。表I描述了提议网络的详细架构。通过全局自适应池化获得扩展感受野的四层特征图，以获得信道响应图，然后，与前一层特征相乘相加，完成高级特征和低级特征的融合。

A.金字塔视觉变压器（PVT）

PVT继承了CNN和变压器的优点，在那里它可以作为CNN骨干网的直接替代品。PVT的整体架构如图所示

图2. PVT的整体架构：设置细粒度图像块（4×4像素）作为输入，整个金字塔架构分为四个阶段，以产生各种尺度的特征图，输出分辨率从高到低逐渐降低，从4条到32条。所有阶段的架构相似，由贴片嵌入和变压器编码器层组成。[33]。

图2。它不仅可以在图像的密集分区上训练以实现高输出分辨率，还可以使用渐进收缩金字塔来减少大型特征图的计算。并采用空间缩减注意力（SRA）来进一步减少学习高分辨率特征时的资源消耗。计算公式如下：[33]

B.接受野阻滞（Receptive Field Block，RFB）

如前所述，在PVT-v2-b2实现特征提取后，我们尝试引入足够的上下文信息，我们设计了RFB。如图3所示，所提出的RFB由四个并行分支组成。在每个分支的开头，我们都使用1×1卷积来降低输入特征的原始通道维数。对于第一个和第二个分支，我们将它们视为输入特征的原始信息，分别用于最终的残差结构和级联。对于最后三个分支，我们使用三个连续的卷积操作，具有不同的核大小和atware速率。我们使用四个并行分支的原因是我们试图构建一个并行结构接受域呈指数变化。详细地说，1×7、7×1处理的接受域和1×5、5×1处理的接受域是1×3、3×1处理的接受域的四倍和两倍。此外，1×1卷积的使用是为了降低输入特征的原始维数，我们使用元素加法和级联来尝试对空间和通道方面的原始信息进行聚合。

具体来说，我们首先使用核大小为1×（2k−3）和（2k−3）×1的两个卷积从两个垂直方向捕获信息，然后我们利用2k−3（k>2）的3×3卷积来扩展输入特征的感受野。随后，我们将最后四个分支（b2、b3、b4、b5）连接在一起。最后，我们使用残差连接添加第一个分支的特征和连接的特征，并伴随ReLU激活函数来进一步增加处理后特征的非线性。在这一系列操作下，通过扩大感受域和丰富多尺度上下文信息来增强输入特征。

ASPP模块结构[21]、[38]作为本文并行卷积多尺度上下文提取方法的基础。许多模块使用atous卷积或大型卷积以粗略地增加感受野。ASPP使用不同的扩张速率将多个Atrous卷积特征连接到最终的特征表示。我们的输入图像具有高分辨率。要在ASPP中实现足够大的感受野，必须采用足够大的扩张比。然而，随着扩张速率的增加（例如，d>24），atous卷积变得越来越无效[20]。因此，我们对ASPP的改进是使用多个卷积，改变atous速率，并且每个分支都是一个字符串而不仅仅是一个简单的卷积操作，这可以捕获更多的上下文信息。然后连接每个分支的输出结果以创建多尺度特征图。

C.语义指导块（Semantic Guidance Block，SGB）

众所周知，最高级别的特征总是拥有足够多的语义信息，这些语义信息与关于类和属性的抽象信息相关。为了抑制较高的误报率（一般分割容易将背景中的一些物体判断为前景），本文设计了SGB来加强前景之间的联系，增强前景和背景之间的差异。具体来说，我们提取网络中最深的全局特征向量，计算当前特征中场景和目标之间的语义关系，从而得到关系矩阵，可以进一步用于增强图像中的前景特征，并减少误报。本文通过GAP从全局特征中生成通道权重，全连接层自适应学习这些权重，最后通过乘以这些权重，调整融合特征，对于每个金字塔级别，关系建模的流程细节如图3所示。

对于更高级别的特征图：　　低级特征图：

这里，H、W、C分别表示图像的高度、宽度、通道数，我们首先对深层特征图Fh使用全局自适应池化，得到通道响应图R为

然后，我们进行1×1卷积来降低R的维数，我们可以得到R0。R0的通道数是R的一半。然后，我们对R0使用sigmoid函数，并将其替换为概率R1作为

让每个通道的权重范围从0到1，即这些C通道的权重值，这样我们就可以在训练过程中从关系矩阵中知道哪个通道更重要，哪个通道不太重要。我们可以通过关联空间场景的相关上下文来提高前景特征的识别能力。然后，我们将R1与降维F l相乘，完成高级特征和低级特征的融合，得到最终融合特征的特征图F。

D.班级指导块（Class Guidance Block，CGB）

密集金字塔网络[39]将金字塔池模块与两个卷积层相结合，以实现多分辨率（高水平和低水平）特征融合。此外，特征金字塔网络[40]，[41]被设计为通过向上采样后将更高级别的特征与更低级别的特征相结合，并将额外的语义信息从上到下整合到具有足够空间信息的更低级别的特征中，从而连接较低级别和更高级别的语义信息。基于此，我们通过使用shallogh空间细节和深度强语义学来改进特征图，这有利于恢复对象的细节和多尺度上下文建模。随后，设计了CGB。

在所提出的CGB中，较高层次的特征由CB处理得到粗分割结果。粗分割结果用于指导两个相邻特征的融合，随后的解码输出更加准确。具体来说，对于前一层预测的使用，我们提出了一种渐进式引导策略，利用前一层预测帮助特征的相邻层学习相对确定的空间关系。关于前者的预测，它已经对每个像素拥有相对特定的语义类，我们使用Sigmoid函数将每个像素与每个类的相应概率分配，由此产生的误差将被融合过程大大消除，我们可以清楚地增强特征并输出更精细的分割结果。根据这种策略，逐层引导特征增强，得到四个输出结果（四个特征的融合对应四个输出，最后一个输出结果是最精确的输出）。具体步骤如下。

对于更高级别的特征图　　低级特征图：

首先，对F l进行上采样，使其大小变为RB×C×H×W，然后，我们将高级特征和低级特征逐个元素相加，得到：M属于RB×C×H×W。

然后，我们将最后一个粗略分割结果的通道分离出来，得到Pi： Pi　RB×1×H×W，i=1,2，…，N。

对Pi进行sigmoid运算，Pi上每一点的概率值表示该点的像素属于该类别的概率，然后，将M乘以，得到每个类别的增强特征：MiλRB×C×H×W， i=1,2，…，N。

逐个元素添加每个类别元素的特征，得到特征图O为

最后，可以通过三个卷积输出最终结果。

三、实验结果和分析

A.数据说明

本文选取ISPRS官网链接的Potsdam和Vaihingen数据集作为实验数据样本．两个数据集的图像及其对应的标签如图4所示。

1）波茨坦：波茨坦数据集图像具有5厘米的空间分辨率。数据集中的每个图像都包含一个仿射变换文件，可用于根据需要将其分解为更小的图像。数据采集由GeoTIFF的三个波段组成。该数据集还提供tiff存储形式的图像通道组合，包括IR-G、R-G-B和R-G-B-IR。

在本实验中，选择带有边界标签的图像作为标签图像，包括六类：不透水表面、建筑物、低矮植被、树木、汽车和杂波。我们使用图像2_13、2_14、3_13、3_14、4_13、4_14、4_15、5_13、5_14、5_15、6_13、6_14、6_15和7_13作为测试集，2_10作为验证集，其余的作为训练集。

2）Vaihingen：Vaihingen数据集图像空间分辨率为9 cm，包括33个真正射照片，平均空间尺寸为2494×2064。地面实景包括与ISPRS Potsdam基准相同的七个类别。我们使用4、8、12、14、20、24、29、33和38作为测试集，30作为验证集，其余作为训练集。根据与Postdam相同的数据切割方法，实验中仅使用红色、绿色和蓝色通道。

B.实验参数设置

参数集应在实验前精确建立和识别。我们在NVIDIA GeForce RTX3090 GPU上训练网络，它们完全具有24GB RAM。对于这两个数据集中的每一个，我们分别训练我们提出的网络。表II描述了一些数据描述和训练细节。训练环境是Pytorch1.8.1和cuda11.1，使用Adam优化器。我们根据训练纪元调整学习率。初始学习率设置为10-4，每50个纪元衰减十次，共100个纪元。因为经过实验，精度达到饱和100个时期的状态。以多类交叉熵作为损失函数，用语义分割中常用的另外两个损失函数（Dice损失和NLLLoss）进行消融实验，证明其有效性。

C.评估指标

选择整体准确度（OA）、平均intersection-over-union（mIoU）和F1-mark（F1）作为我们的评估标记，以充分评估该方法的语义分割结果。此外，对于像素级分类任务，当类别不均匀时，利用精度和召回进行预测，分别由（8）和（9）计算

OA表示整体像素的整体评估结果，公式如下：

F1分数是召回率和准确率的综合衡量标准，其公式如下：

IoU是指类别与真实标签的预测结果之间的交集和并集之间的比率。mIoU是指所有类别的IoU平均值，其公式如下：

在所有公式中，N代表类别的数量，N+1代表所有类别加上背景。许多指标是基于混淆矩阵计算的，其中一些定义如下：真正、真负、假正和假负（TP、TN、FP和FN）。TP和FP分别是正确和错误预测为前景的前景像素数；TN和FN分别是正确和错误预测为背景的背景像素数。

D.与现有作品的比较

如前所述，我们设计的基于PVT的前景感知网络模型是PVT与传统卷积解码器相结合的分割网络，目的是丰富具有长期依赖关系和局部模式的全局上下文信息，以提高分割精度。因此，对分割精度的数值评估进行了实验研究，包括UNet（2015）、PSPNet（2017）、DeepLabV3+（2018）、HRNet（2020）、ABCNet（2021）、MANet（2020）和SegNet（2017）。

1）波茨坦数据实验结果：波茨坦数据集用于第一系列实验，可视化比较结果如图5所示，分别表示裁剪后和裁剪前的可视化结果。

很明显，PSPNet产生了低精度的分割结果，并且不够鲁棒性以保留微妙的前景边缘，这导致提取的建筑物形状不规则和边界模糊。本文中使用的策略导致建筑物的边缘线更直，直角更明显。几乎所有预测区域都与参考标签匹配。由于变压器对全局关系进行建模的能力，PVT可以比CNN模型更准确地分割巨大的对象（如建筑物）。此外，其他模型方法在低植被和树木方面表现出严重下降的性能。在本文中，通过计算相关性得到权重矩阵，并对特征值进行自适应增强或衰减，使类的像素值表示更加准确，从而可以看到树木和低植被之间的小类之间的差异。所提出的方法在这些具有挑战性的类别中显示了更平滑的结果。我们计算了每个类别的IoU以及每个被检查模型的其他指标的平均值。表III提供了调查结果的摘要。

从结果可以看出，本文提出的基于PVT的前景感知网络在F1 Ave、OA、mIoU中排名第一，在F1平均中获得85.79%的结果，在OA中获得88.91%的结果，在mIoU中获得77.32%的结果。UNet是所有使用CNN作为骨干的网络中最好的。与我们的方法相比，F1 Ave、OA和mIoU分别提高了0.95%、1.33%和1.49%。虽然在比较五种技术时考虑了特征融合，但没有考虑特征融合的权重。我们提出的方法可以通过学习融合特征的权重来进行修改。结果，我们的方法可能会对数据进行分类．

更准确地，消除误报，更有效地解决容易混淆类别的错误感知问题。例如，很容易对低植被和高树木进行错误分类。但是我们的方法在这两个类别中表现更好，IoU分别上升了1.95%和2.76%。这些结果证明了我们解码器设计的有效性。此外，与其他类别相比，车辆类别是一个小目标，不透水表面类别是一个大目标。这两个类别的IoU值分别增加了0.46%和2.28%，这表明我们提出的多尺度上下文提取方法（PVT）可以解决两个对象的大小和形状悬殊过大的问题，并在大规模数据集中获得更大的收益。因此，基于变压器的网络在语义分割方面提供了与大多数基于ResNet的方法相比具有竞争力的准确性。为了验证我们的整个过程，我们验证了预测1-4的准确性，结果如表四所示。通过我们的CGB获得了四层特征融合输出结果。最后的输出结果是最详细的。与第一次粗分割结果相比，mIoU可以提高4.58%，证明本文设计的编解码结构可以更准确地提取特征，有效地融合特征，从而提高分割性能。

2）Vaihingen数据实验结果：第二组实验是在Vaihingen数据集上进行的。视觉比较结果如图6所示。观察到其他方法分割结果中的汽车是粘附的和不完整的，识别出的汽车边界信息不够准确。我们的方法可以在没有粘度的情况下准确地绘制完整的形状和区分小地物，如汽车。此外，在HRNet、DeeplabV3+和PSPNet产生的数据中可能会看到一些缺失和错误提取的区域，建筑物边缘周围有明显的失真。UNet和ABCNet减少了不正确划分和缺失划分的发生。比较表明，我们的方法提取了更全面的较小建筑，对于所有比较模型，我们计算了每个类别的F1和其他指标的平均值。结果总结在表五中。

结果表明，我们的方法对Vaihingen数据集的OA为88.87%，F1的平均值为82.05%，mIoU为71.79%，分别比其最接近的竞争对手UNet高出1.48%、3.5%和3.73%。虽然Vaihingen的数据量相对小于Potsdam，但我们的方法仍然取得了更好的性能。特别是对于车辆类别，IoU增加了3.59%。由于树木和建筑物阻挡了占训练图像像素一小部分的汽车，因此很容易被错误划分或遗漏。网络模型我们提出使用PVT提取不同尺度的特征，解码器设计部分自适应融合不同层次的语义信息。因此，即使前景对象在图像中占据很小的区域，也可以对其进行恢复和组合，以生成有效的特征并进行准确的分割。在实验结果中，尽管类别分布不均匀，但平均准召在所有类别中分别上升了0.79%和3.63%。数值结果和可视化结果证实了我们方法的有效性。此外，我们还验证了Predic1-4的准确性，如表VI所示。与第一次粗分割的结果相比，类别引导到最后一次的输出结果可以提高16.07%。这证明我们提出的网络架构显示出比其他五种模型更好的分割性能。

E.计算和参数效率

我们在表VII中报告了在两个数据集上进行训练和测试的运行时间以及不同模型的参数数量。在这个表中，有两个指标，具体如下。

1）参数是指模型中包含的参数数量，用于度量模型的大小（计算空间复杂度）。与其他大规模网络如HRNet（70M参数）、MANet（59M参数）、SegNet（29M参数）相比，我们的架构（25M参数）的参数明显更少。

2）每秒帧数（FPS）表示网络每秒可以处理的图像数量或处理图像以评估检测速度所需的时间，时间越短，速度越快，我们的架构有比绝大多数传统CNN更低的时间复杂度。

F.消融实验

消融实验结果：本文选用PVT作为编码器，在解码部分以UNet结构的U形结构为基线，由RFB、SGB、CGB三组分组成，在ISPRS Potsdam和Vaihingen数据集上对烧蚀实验进行了评估，并对烧蚀研究进行了定量检验，以证明本研究中解码器三阶段技术的功效，表VIII显示了消融实验结果。

1）基线：我们选择PVT作为特征提取的编码器，并将输出的四层特征图输入到解码器，解码部分以UNet结构的U形结构作为“基线”，基线可以作为评估网络组件性能的标准。

2）基线+RFB：在解码器中，RFB被设计为捕获全局上下文信息，分支和处理每一层的特征，并获得不同的特征图．因此，一个简单的变体更能捕捉多尺度上下文信息。与基线相比，“基线+RFB”的性能将证明RFB的有效性。

3）Baseline+SGBandBaseline+RFB+SGB：丰富的空间信息对于语义分割至关重要，因此需要创建具有多尺度和高级语义信息的特征图。为了利用最高级别的特征为其他低级特征提供语义指导，我们提出了SGB。该表显示，“基线+SGB”在mIoU方面比“基线”高出0.76%和0.25%，而“基线+RFB+SGB”比“基线+RFB”高出0.67%和0.43%，证明了SGB在特征融合方面的功效。

4）基线+CGB和基线+RFB+CGB： CGB通过逐层特征增强、每个类别逐个元素特征添加以及上下文和空间信息融合来实现四层特征融合。在mIoU方面，“基线+CGB”比“基线”高1.79%和0.77%，而“基线+RFB+CGB”比“基线+RFB”高0.67%和0.60%，证明了这种分段融合方法的有效性。

5）Baseline+RFB+SGB+CGB：结合工作解码器设计的三个组件的方法实现了更高的精度。与“基线”相比，“Baseline+RFB+SGB+CGB”的分割性能在mIoU中提高了3.02%和1.23%，证明本文提供了最佳融合方案。

此外，我们在Vaihingen数据集中通过烧蚀实验比较不同损失函数的性能，以证明本文中用作损失函数的多类交叉熵的可靠性，实验数据结果和可视化结果如表IX和图7所示．本文中使用多类交叉熵作为损失函数对于大多数类别的分割效果和准确性是最好的。

IV.结论

引入PVT作为编码器，成为像素级密集预测任务设计的纯变压器骨干，显示了多尺度建模在远距离视觉依赖方面的优势。在有限的计算和存储资源下，PVT可以灵活学习多尺度和高分辨率的细粒度特征，并将其与流行的ResNet提取的特征图进行比较，证明其具有比CNN更强大的特征表达能力。它还可以帮助区分容易混淆的地理对象。

我们利用CNN开发了一种特殊的解码和分割方法，称为类引导网络，并设计了三个模块来高精度和高效率地恢复特征。在获得精确的多尺度特征时，我们使用相关性来监控各种场景中像素之间的关系。然后，我们建立了类感知引导机制来挖掘类感知信息，并通过渐进方法实现精细分割。我们使用烧蚀研究来证明每个模块的有效性。

本研究仅限于研究如何提高网络模型的分割精度。PVT对于高分辨率输入的计算复杂度仍然很高。未来，我们鼓励进一步研究变压器和CNN的深度集成。在此基础上，我们讨论如何计算复杂度并获得高效的分割方法。