【FineGrip】全光学感知:一种新的通用遥感图像解释任务和细粒度数据集(IEEE TGRS 2024)

摘要

  • 目前的遥感解译模型通常集中于单一的任务,如检测、分割或字幕。但是,针对特定任务设计的模型无法实现综合多层次解译。该领域也缺乏多任务联合解译数据集。
  • 本文提出Panoptic Perception,一个新的任务和一个新的细粒度数据集(FineGrip)实现一个更全面和普遍的RSIs解译。该新任务:
    • 集成了像素级、实例级和图像立面信息,用于通用图像感知;
    • 从粗粒度到细粒度捕获图像信息,实现更深层次的场景理解和描述;
    • 通过多任务学习,使各种独立任务相互补充和增强。
  • 通过强调多任务交互和感知结果的一致性,该任务能够同时处理细粒度前景实例分割、背景语义分割和全局细粒度图像字幕。具体地说,FineGrip数据集包括2649张遥感图像,12054个细粒度实例分割掩码,有20个前景事物类别,7599个背景语义掩码和13245个字幕句子。
  • 此外,提出了一个基于联合优化的全视觉感知模型。对FineGrip的实验结果证明了全视觉感知任务的可行性,以及多任务联合优化对个体任务有益的效果。
  • 论文链接:https://arxiv.org/abs/2404.04608
  • 代码链接:FineGrip

动机

  • RSI解译在图像分类、目标检测、语义分割、实例分割、图像字幕生成、多种任务中呈现了快速发展趋势。然而,这些任务只涵盖了单个任务的解释。然而,这些任务的模型通常是独立设计的,而忽略了RSIs中丰富的语义和上下文关系。因此,期望实现对RSIs的多层次、细粒度、感知解译。
  • 最近,出现了新的研究来促进更全面的RSI解释。然而,关于RSI全光学分割的数据集和研究却很少,并且,全光学分割仍然关注于像素级和实例级的解译。另外,细粒度对象识别是识别目标对象的特定子类别的关键任务。然而,这些任务不能处理从像素级到图像级的多模态解释,缺乏综合感知能力和跨多模态任务的通用解释模型。

方法

  • 引言

    • 本文引入Panoptic Perception(全景感知),如图1所示,可以同时处理多层次解译中的各种子任务,包括前景实例的细粒度实例分割、背景区域的语义分割和图像字幕生成。这一创新任务和传统任务不同,不仅关注个人解译水平,而且促进互相强化和交互优化。多任务的协同处理要求模型在不同层次上全面理解全局上下文关系和语义信息。反过来又增强了模型提取和利用RSIs中丰富信息的能力。提出的全景感知集成了像素级、实例级和图像级理解来构建一个通用的解释框架。
    • 构建了FineGrip数据集支持新任务的开发。包括2,649张遥感图像,具有细粒度的飞机实例分割注释、不同的背景语义和细粒度的句子描述注释。据我们所知,这是第一个为RSIs集成细粒度检测、实例分割、语义分割和细粒度图像字幕注释的数据集。此外,还利用SAM构建了一个半自动的分割标注系统。它充分利用了SAM鲁棒的零样本能力,显著提高了前景分割的标注效率。
    • 为了验证所提出的全景感知的可行性和数据集的有效性,提出了一个端到端全景感知基础模型。实验结果证实了全景感知任务的可行性以及多任务联合优化对个体任务增强的有益影响。
  • 任务内容

    • 本文提出一个细粒度、统一的框架来同时实现像素级、实例级和图像级的解译。如图1所示,本文提出的任务超过了传统的单任务,需要模型来提取更全面的上下文特征,并能够在不同层次上联合解译多个任务:
      • 图像级别上,该任务要求模型生成整个图像的简明描述,并使用自然语言输出此概述
      • 实例级别上,模型识别所有前景对象的细粒度类别,区分同一类别内的不同实例,并为每个实例预测准确的轮廓。该任务还要求模型在其描述性句子中指定所有前景实例的数量和特定类别。
      • 像素级别上,该任务要求为图像中的每个像素分配一个不同的前景或背景类别。此外,必须为与不同前景实例相关联的像素分配一个唯一的标识符。
    • 给定一个图像I\in \mathbb{R}^{H\times W\times 3},定义一组单词Wds=\{wd_1,wd_2,...,wd_W\}和一组类别C^P=\{c_1,c_2,...,c_C\},其中W、C分别为单词和类别的总数。C^P可以进一步分为前景类别C^{Th}和背景类别C^{St},其中C^{Th}\cap C^{St}=\varnothing。细粒度全景感知任务的目标定义如下:
      • 对于图像中的任何给定的像素(x,y),模型需要同时预测像素的类别和实例id,记为(c_{x,y},id_{x,y})。同一实例中的所有像素都应该共享相同的类别和数字标识。当一个像素属于一个背景类别时,预测的实例id应该为\varnothing
      • 考虑最大句子长度L,模型应该为图像生成一个描述性句子,表示为\{w_1,w_2,...,w_L|w_i\in Wds\}。这个句子必须包含关于图像中前景对象的数量和类型的信息。
    • 细粒度的全景感知要求跨子任务的感知结果的一致性。如图1(a)所示,关于前景实例的数量和类型的标题应与分割结果相一致。
    • 对于分割子任务,采用Panoptic Quality(PQ)来评估性能,并且利用PQ^{th}PQ^{st}来测量前景和背景类别的分割质量。此外,还应用Recognition Quality (RQ) 和Segmentation Quality (SQ)对其识别和分割性能进行了分析。至于图像字幕的生成,使用BLEU来评估字幕质量。
  • 数据集构造

    • 新任务缺乏数据集,因此,开发乐一种基于新型半自动标注系统的细粒度全景感知基准数据集。
    • FineGrip数据集
      • FineGrip中样本主要来自MAR20,如表1所示,原始MAR20只包含边界框注释,需要扩展注释。
      • FineGrip包括2649张遥感图像,12054个实例分割覆盖20个前景类别,7599个背景语义掩模覆盖5个背景类别,以及13,245句具有细粒度类别指示的句子。前景类别包括SU-35, C-130, C-17, C-5, F-16, TU-160, E-3, B-52,P-3C, B-1B, E-8, TU-22, F-15, KC-135, F-22, FA-18, TU-95,KC-10, SU-34, SU-24。为了方便表示,类别分别用A1∼A20表示。而背景类别包含Land, Runway, Hardstand, Parking-apron, Building。图2显示了在training/testing中,每个类别的分割掩模数量。该数据集901张用于训练和1748张用于测试。
      • FineGrip聚焦机场场景,主要前景类别为各种飞机。图3展示了一些前景类别和背景类别的例子。在背景类别下,优先考虑和飞机目标密切相关的区域。将Runway定义为一条有线标记的长直线;Parking-apron是一个值得注意的区域;Hardstand是指除上述两种以外的飞机可以滑行的区域;Buildings被归类为背景而不是前景,因为我们不关心在这个场景中建筑的具体实例分割。我们只需要确定图像中的哪些区域与建筑有关。
      • 对于细粒度的图像标题任务,强调了前景目标的精确数量等信息。五个不同的注释者分别为每个图像注释1个不同的描述,以促进标题的多样性。最终,通过集成细粒度的实例分割、背景语义分割和细粒度的字幕注释,建立了FineGrip数据集。图4显示了从FineGrip中获得的一些完整的注释示例。
      • 与传统的解释任务和最近提出的RSI全光学分割数据集相比,FineGrip在以下方面表现出了显著的特征:
        • Abundant fine-grained semantic categories:FineGrip包含了20个细粒度的前景类别和5个背景类别来自不同类别的样本具有不同的语义、广泛的地形场景和复杂的语义关系等特点。此外,它还满足了类间差异小和类内差异大的实际挑战。
        • Broader granularity of caption sentences:字幕注释从一般粒度扩展到特定粒度,提供了图像的全面视图。它也很细粒度化,并与像素级注释相一致。此外,还详细描述了复杂的语义关系,从全局的角度实现了类人的感知。它给出了图像的一般概述,并确定了主要目标的精确计数和模型。
        • Affinity exploration of foreground-background relationships:在FineGrip中,前景类别和背景类别有着密切的关系。例如,飞机主要停在停机坪或硬架区域,但很少出现在陆地地区。此外,建筑区域通常被硬看台区域分开。这些客观因素表明,全景感知模型应考虑这些语义关系,即前景识别和背景分割具有相互增强的潜力。
        • Synergized multi-tasking:协调实例分割和图像字幕任务,既可以识别目标数量和子类别,又可以相互提高它们的性能。
    • 半自动注释系统
      • SAM有鲁棒的泛化能力以及很强的零样本分割能力,当提供高质量的提示时,基于SAM的注释系统可以生成高质量的无标签分割掩码。此外,利用少量标注数据对SAM进行微调,可以在各种下游分割任务中产生良好的性能。如图5所示,使用SAM进行RSI分割标注主要有两种方法:(a)直接输入图像;(b)使用手动注释的边界框作为提示。然而,(a)方法正在努力解决自然图像和RSIs之间的实质性领域差异;方法(b)并没有消除边界框注释所需的手动工作。
      • 为了弥补SAM缺乏RSI特定知识的不足,提高标注效率,设计了一种新的基于SAM的半自动标注系统,并辅以了一个监督检测和分割模型,如图5(c)所示。手动注释了一组小的图像的边界框,以训练一个检测器。为了确保不可见图像的注释质量,对检测模型生成的边界框进行手动检查。随后,预测的框结果作为提示,并输入SAM,对图像中的某些目标进行分割。在细化这些分割结果后,训练一个有监督的分割模型。所描述的过程是迭代的,即当前步骤得到的检测和分割结果直接输入到下一步的训练数据中。
      • 为了注释未看到的图像,首先使用检测模型来获取方框提示。然后,利用SAM和训练后的分割模型对分割结果进行预测。通过合并来自SAM和训练过的模型的结果来实现最终的分割注释。在实际应用中,简单地获得交叉区域可以有效地结合分割结果。
  • 基于联合优化的全景感知方法

    • 模型架构如图6所示。由像素级模块、全景分割模块和图像字幕模块三部分组成,分别负责编码图像特征、预测对象掩码和生成标题。在优化过程中,使用分割和字幕任务的损失函数进行梯度计算。
      • Pixel-level Module:由图像编码器和解码器组成。采用ResNet-50作为图像编码器,带卷积层的transformer解码器作为图像解码器。
      • Segmentation Module
        • 将实例分割和语义分割视为掩码分类问题,并使用基于transformer的方法。首先,初始化N个可学习查询 Q\in \mathbb{R}^{C_Q\times N},其中 C^Q是查询维数。从像素级模块中获得的特征F被用作键(K)和值(V)。使用一个标准的transformer解码器迭代的更新Q。类似于DETR,保存每个解码器层的结果。
        • 一个典型的transformer解码器层计算由三个部分组成:Q上的自注意力;Q、K和V之间的交叉注意力,和一个前馈神经网络。本文没有使用隐藏的注意,因为在查询之间没有时间关系。
        • 通过其他查询和图像编码特征的交互,该查询可以学习不同目标的特征及其在图像中的位置信息。随后,使用这些包含丰富信息的查询来进行掩码分类和生成。
        • 在掩码分类分支中,编码的查询经过线性变换,得到 N\times (C+1)个分类结果,其中C是前景和背景类别的总数。类别∅代表没有对象对象。
        • 在掩码生成分支中,查询被投影到掩码嵌入 Q_{mask}\in \mathbb{R}^{N\times C_E}中,它与每像素特征嵌入具有相同的信道维度。然后,在第i个掩模嵌入与矩阵E之间进行点积,然后应用s型函数生成第i个掩模预测结果。
        • 采用 Hungarian matching,在掩模预测结果和地面真实值之间生成一个一对一的映射。
      • Caption module
        • 如图7所示,我们使用一个基于模型无关的transformer解码器来执行标题生成。​​​​​​​
      • Overall Objective
        • ​​​​​​​​​​​​​​总损失函数为Lseg和Lcap的加权和

实验

Quantitative Analysis

Ablation Study

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/44517.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

GESP CCF C++ 二级认证真题 2024年6月

第 1 题 小杨父母带他到某培训机构给他报名参加CCF组织的GESP认证考试的第1级,那他可以选择的认证语言有几种?( ) A. 1 B. 2 C. 3 D. 4 第 2 题 下面流程图在yr输入2024时,可以判定yr代表闰年,并输出 2月…

介绍一款数据准实时复制(CDC)中间件 `Debezium`

简介 文章开头先介绍一下什么是CDC。数据准实时复制(CDC)是目前行内实时数据需求大量使用的技术。常用的中间件有Canal、Debezium、Flink CDC等 下面我们做一下对比 各有优缺点吧,本主要介绍一下Debezium中间件。 Debezium是什么 Debezium是一个为变更数据捕获(CDC)提供…

OpenAI终止对中国提供API服务,对国内AI市场产生重大冲击?

6月25日,OpenAI突然宣布终止向包括中国在内的国家地区提供API服务,本月9日这一政策已经正式生效了! 有人说,这个事件给中国AI行业带来很大冲击!是这样吗?在展开讨论前,我们先来看看什么是API服务…

8080端口映射外网不成功的原因

最近因为需要将群晖nas的8080端口映射到外网,但是路由器已经成功设置,群晖nas上对应端口的服务也已经部署好,可是如论如何也从外网访问不到群晖服务器上,但是同样是5000端口,群晖的外网管理端口就可以,最后…

jmeter-beanshell学习8-for循环

一个稍微有点难度的东西 要把响应结果的所有名字都取出来,然后怎么处理看自己需求。比如找某个人是不是在这里,或者把所有人都写进一个文档,我就不编场景了 第一步想要取出所有名字,还得靠万能的正则表达式提取器,jso…

【开源 Mac 工具推荐之 1】gibMacOS:方便快捷的 macOS 完整包下载 Shell 工具

简介 gibMacOS 是由 GitHub 开发者 corpnewt 编写的一款 Shell 工具。它采用 Python 编程语言,可以让用户打开后在纯文本页面中轻松选择并下载来源于 Apple 官方的 macOS 完整安装包。 Repo 地址:https://github.com/corpnewt/gibMacOS (其…

【简历】某电子科技大学:前端实习简历指导,面试通过率低

注:为保证用户信息安全,姓名和学校等信息已经进行同层次变更,内容部分细节也进行了部分隐藏 简历说明 这是一份一本某电子科技大学的同学简历,投递的职位就是我们前端,但是因为学校是一本,我们说主要主体在…

Mybatis-plus 集成 PostgreSQL 数据库自增序列问题记录

1.创建序列并绑定id CREATE SEQUENCE biz_factory_seq START WITH 1 INCREMENT BY 1 NO MINVALUE NO MAXVALUE CACHE 1;"id" int4 NOT NULL DEFAULT nextval(sys_user_seq::regclass), 2.实体设置KeySequence和TableId注解 注意IdType.INPUT 和 KeySequence(value …

debian 12 PXE Server 批量部署系统

pxe server 前言 PXE(Preboot eXecution Environment,预启动执行环境)是一种网络启动协议,允许计算机通过网络启动而不是使用本地硬盘。PXE服务器是实现这一功能的服务器,它提供了启动镜像和引导加载程序,…

STM32的TIM1之PWM互补输出_死区时间和刹车配置

STM32的TIM1之PWM互补输出_死区时间和刹车配置 1、定时器1的PWM输出通道 STM32高级定时器TIM1在用作PWM互补输出时,共有4个输出通道,其中有3个是互补输出通道,如下: 通道1:TIM1_CH1对应PA8引脚,TIM1_CH1N对应PB13引…

LDAPWordlistHarvester:基于LDAP数据的字典生成工具

关于LDAPWordlistHarvester LDAPWordlistHarvester是一款功能强大的字典列表生成工具,该工具可以根据LDAP中的详细信息生成字典列表文件,广大研究人员随后可以利用生成的字典文件测试目标域账号的非随机密码安全性。 工具特征 1、支持根据LDAP中的详细信…

JavaDS —— 栈 Stack 和 队列 Queue

栈的概念 栈是一种先进后出的线性表,只允许在固定的一端进行插入和删除操作。 进行插入和删除操作的一端被称为栈顶,另一端被称为栈底 栈的插入操作叫做进栈/压栈/入栈 栈的删除操作叫做出栈 现实生活中栈的例子: 栈的模拟实现 下面是Jav…

对接企业微信API自建应用配置企业可信IP

前言 为了实现系统调用团队会议功能,组织发起企业微信会议,于是需要和企业微信做API对接。对接过程很难受,文档不清晰、没有SDK、没有技术支持甚至文档报文和实际接口报文都不匹配,只能说企业微信的API是从业以来见过的最难用的AP…

[Spring] Spring Web MVC基础理论

🌸个人主页:https://blog.csdn.net/2301_80050796?spm1000.2115.3001.5343 🏵️热门专栏: 🧊 Java基本语法(97平均质量分)https://blog.csdn.net/2301_80050796/category_12615970.html?spm1001.2014.3001.5482 🍕 Collection与…

QT 多线程 QThread

继承QThread的线程 继承 QThread 是创建线程的一个普通方法。其中创建的线程只有 run() 方法在线程里的。其他类内定义的方法都在主线程内。 通过上面的图我们可以看到,主线程内有很多方法在主线程内,但是子线程,只有 run() 方法是在子线…

SvANet:微小医学目标分割网络,增强早期疾病检测

SvANet:微小医学目标分割网络,增强早期疾病检测 提出背景前人工作医学对象分割微小医学对象分割注意力机制 SvANet 结构图SvANet 解法拆解解法逻辑链 论文:SvANet: A Scale-variant Attention-based Network for Small Medical Object Segmen…

【JAVA poi-tl-ext 富文本转word】

富文本转word 环境使用poi-tl-ext的原因富文本转word代码 环境 jdk 1.8 <dependency><groupId>io.github.draco1023</groupId><artifactId>poi-tl-ext</artifactId><version>0.4.16</version> </dependency>poi-tl-ext已经包…

可灵重大升级!新增Web端上线、首尾帧控制、单次生成视频时长增加至10s!

快手视频生成大模型“可灵”&#xff08;Kling&#xff09;&#xff0c;作为全球首个真正用户可用的视频生成大模型&#xff0c;自面世以来&#xff0c;凭借其无与伦比的视频生成效果&#xff0c;在全球范围内赢得了用户的热烈追捧与高度评价。截至目前&#xff0c;申请体验其内…

修正版头像上传组件

修正版头像上传组件 文章说明核心源码展示运行效果展示源码下载 文章说明 在头像剪切上传一文中&#xff0c;我采用div做裁剪效果&#xff0c;感觉会有一些小问题&#xff0c;在昨天基于canvas绘制的功能中改进了一版&#xff0c;让代码变得更简洁&#xff0c;而且通用性相对高…

【WebGIS】从设计层面设计系统

本项目在通过现代信息技术手段&#xff0c;对古村古镇进行多方位、多角度的数字化记录、展示与传播&#xff0c;实现文化遗产的数字化保护、活化利用与共享。项目内容主要包括&#xff1a;1&#xff09;古村古镇数据库的建立&#xff1a;通过多种渠道收集古村古镇的各类信息&am…