UNetFormer:一种类似UNet的转换器,用于遥感城市场景影像的高效语义分割,ISPRS。此外,还包括用于卫星、航空图像和无人机图像分割。
本文选取的是WHU-Building-DataSets。数据集[1]包含了从新西兰基督城的航空图像中提取的超过220,000个独立建筑,图像被分割成了8189个512×512像素的片,其中包含了训练集(130,500个建筑),验证集(14,500个建筑)和测试集(42,000个建筑)。
UNetFormer提出了一种基于transformer的解码器,一种高效的全局-局部注意机制global-local Transformer block (GLTB) ,用于实时城市场景分割。。
论文地址
https://www.sciencedirect.com/science/article/abs/pii/S0924271622001654?via%3Dihub。
源码地址
https://github.com/WangLibo1995/GeoSeg
GeoSeg库中提供了多种模型,暂未测试;