(ISPRS,2021)具有遥感知识图谱的鲁棒深度对齐网络用于零样本和广义零样本遥感图像场景分类

文章目录

  • Robust deep alignment network with remote sensing knowledge graph for zero-shot and generalized zero-shot remote sensing image scene classification
    • 相关资料
    • 摘要
    • 引言
    • 遥感知识图谱的表示学习
      • 遥感知识图谱的构建
      • 实体和关系的语义表示学习
      • 创建遥感场景类别的语义表示
    • 鲁棒深度对齐网络用于零样本和广义零样本遥感图像场景分类
      • 零样本学习(ZSL)和广义零样本学习(GZSL)的定义
      • 潜在空间中的鲁棒深度对齐网络
        • 视觉特征和语义表示的重建
        • 跨模态特征重建(CMFR)
        • 视觉和语义分布匹配(VSDM)
        • 多类别分布分散(MCDD)
    • 实验
    • 实验

Robust deep alignment network with remote sensing knowledge graph for zero-shot and generalized zero-shot remote sensing image scene classification

相关资料

论文:Robust deep alignment network with remote sensing knowledge graph for zero-shot and generalized zero-shot remote sensing image scene classification - ScienceDirect

代码:kdy2021/SR-RSKG (github.com)

摘要

尽管深度学习已经彻底改变了遥感图像场景分类,但当前基于深度学习的方法高度依赖于预定场景类别的大量监督,并且对于超出预定场景类别的新类别表现不佳。实际上,随着涉及遥感图像场景新类别的新应用的出现,分类任务通常需要扩展,因此如何使深度学习模型具备识别训练阶段未预定场景类别之外的未见遥感图像场景的推理能力变得非常重要。本文充分利用遥感领域的特征,从头构建了一个新的遥感知识图谱(RSKG),以支持未见遥感图像场景的推理识别。为了提高面向遥感的场景类别的语义表示能力,本文提出通过遥感知识图谱的表示学习生成场景类别的语义表示(SR-RSKG)。为了追求视觉特征和语义表示之间鲁棒的跨模态匹配,本文提出了一种新型的深度对齐网络(DAN),并设计了一系列优化约束,可以同时解决零样本和广义零样本遥感图像场景分类问题。在多个公开数据集的集成遥感图像场景数据集上的广泛实验表明,所提出的SR-RSKG明显优于传统知识类型(例如,自然语言处理模型和手动注释的属性向量),并且在零样本和广义零样本遥感图像场景分类设置下,我们提出的DAN与现有最先进方法相比表现出更好的性能。构建的RSKG将与本文一起公开提供(https://github.com/kdy2021/SR-RSKG)。

引言

零样本学习(ZSL)近年来的发展为识别未见类别的样本提供了有希望的解决方案。通过利用包括看到和未见类别在内的类别的先验知识作为辅助信息,ZSL可以学习从看到类别的样本中识别未见类别的样本。通常,看到和未见类别的语义信息是人类的常识,这是普遍的,可以在训练和测试阶段使用,但是训练阶段不存在未见类别的图像样本。因此,如何表达语义是追求ZSL优越性能的关键

与计算机视觉领域相比,遥感领域的特点限制了ZSL和GZSL的发展:

  1. 遥感场景类别的名称通常具有领域特异性。如果直接利用通用自然语言处理模型(例如,Word2Vec)将遥感场景类别的名称映射为语义表示,那么这些语义表示就不能反映遥感类别的内在语义信息。
  2. 遥感图像场景通常具有大的类内差异和大的类间相似性,通常比计算机视觉领域的自然图像具有更复杂的外观。通常,在计算机视觉领域取得优异结果的ZSL和GZSL方法不能直接扩展到遥感领域的任务。总的来说,推动零样本和广义零样本遥感图像场景分类的发展值得更多的探索。

为了生成高质量的遥感场景类别的语义表示,本文基于人类专家的领域先验知识构建了一个新的遥感知识图谱(Remote Sensing Knowledge Graph, RSKG),其中RSKG充分考虑了遥感场景元素之间丰富的联系。据我们所知,本文首次提出通过遥感知识图谱的表示学习来计算遥感场景类别的语义表示(Semantic Representations of RS scene categories by representation learning of RSKG, SR-RSKG)。基于SR-RSKG,本文提出了一个新的深度对齐网络(Deep Alignment Network, DAN),并设计了一系列精心设计的约束条件,该网络可以在潜在空间中稳健地匹配视觉特征和语义表示,以解决零样本和广义零样本遥感图像场景分类问题。

遥感知识图谱的表示学习

遥感知识图谱的构建

在这里插入图片描述

为了支持零样本遥感图像场景分类,我们基于遥感场景元素构建了一个新的知识图谱(即RSKG)。值得注意的是,RS场景不仅仅是一系列对象的集合,它还包含了对象之间丰富的关系。结合遥感图像内容的特点以及地理空间关系的相关研究,我们定义了RSKG中的关系如下:

我们将关系分为两类:属性关系空间关系

  • 属性关系用于描述对象的特征或与其他对象的父子关系,可以进一步细分为数据关系和对象关系。数据关系包括形状、颜色、宽度、分布和高度;对象关系包括“拥有”、“组成部分”、“部分”和“成员”。

  • 空间关系主要描述空间中不同对象之间的位置关系,可以细分为位置关系拓扑关系模糊关系。位置关系包括“标出”、“停靠”、“停止”、“在上方”和“在上方”;拓扑关系包括“被包围”、“在…交叉”、“通过”、“遇见”、“连接”、“覆盖”、“包含”和“在内”;模糊关系包括“靠近”、“旁边”、“周围”和“沿着”。

在这里插入图片描述

当前版本的RSKG包含117个实体、26种关系和191个三元组

实体和关系的语义表示学习

在这里插入图片描述

对于知识图谱中的每个三元组(h, r, t),TransE模型假设头部实体向量加上关系向量大约等于尾部实体向量。然而,TransE模型无法处理知识图谱中出现的1-N或N-1等复杂关系。为了解决这个问题,我们推荐使用改进的表示学习模型TransH,它通过将关系建模为超平面上的平移操作来灵活处理复杂关系。

在TransH模型中,给定的嵌入向量ch和ct被映射到超平面上,通过计算 c h ⊥ = c h − w r ⊺ c h w r c_{h_⊥} = c_h − w^⊺_rc_hw_r ch=chwrchwr c t ⊥ = c t − w r ⊺ c t w r c_{t_⊥} = c_t − w^⊺_rc_tw_r ct=ctwrctwr,其中 w r w_r wr是超平面的法向量。然后,通过最小化目标函数来优化嵌入向量,目标函数定义为:

f r ( h , t ) = ∥ c h ⊥ + c r − c t ⊥ ∥ 2 2 f_r(h, t) = \| c_{h_⊥} + c_r - c_{t_⊥} \|^2_2 fr(h,t)=ch+crct22

通过最小化损失函数:

L T r a n s H = ∑ ( h , r , t ) ∈ Δ ∑ ( h ′ , r ′ , t ′ ) ∈ Δ ′ max ⁡ ( f r ( h , t ) + τ − f r ( h ′ , t ′ ) , 0 ) L_{TransH} = \sum_{(h,r,t) \in \Delta} \sum_{(h',r',t') \in \Delta'} \max(f_r(h, t) + \tau - f_r(h', t'), 0) LTransH=(h,r,t)Δ(h,r,t)Δmax(fr(h,t)+τfr(h,t),0)

其中Δ是正确三元组的集合,Δ’是错误的三元组集合,τ是正确三元组和错误三元组分数之间的最小间隔,通常设置为1。通过优化目标函数,我们可以获得SR-RSKG。

创建遥感场景类别的语义表示

在这里插入图片描述

为了全面评估零样本和广义零样本遥感图像场景分类的性能,我们采用了一个合并的数据集,该数据集整合了五个公共数据集:UCM、AID、NWPU-RESISC45、RSI-CB256和PatternNet。合并的遥感图像场景数据集由70个场景类别组成,每个类别包含800个图像场景,图像尺寸为256×256像素。如前所述,RSKG的构建考虑了尽可能多的遥感对象和场景类别的细节,因此RSKG中的实体通常涵盖了特定数据集中的场景类别。简而言之,特定任务中的场景类别可以在RSKG中找到相应的实体。

假设 Y = { y 1 , y 2 , . . . , y M } Y = \{y_1, y_2, ..., y_M\} Y={y1,y2,...,yM}表示遥感场景类别的标签集,其中 M M M表示数据集中场景类别的数量。对于每个标签 y i ∈ Y y_i \in Y yiY,RSKG中的实体与 y i y_i yi(即场景类别)有一一对应关系,我们将实体对应的语义表示记为 c i ∈ C c_i \in C ciC。值得注意的是,构建的RSKG中的实体不仅包括本文中采用的遥感场景分类数据集的场景类别,还包括其他可能的实体或同义词。因此,只要场景类别可以从RSKG中找到实体或同义词,其他遥感场景分类任务也可以灵活地使用RSKG。

鲁棒深度对齐网络用于零样本和广义零样本遥感图像场景分类

零样本学习(ZSL)和广义零样本学习(GZSL)的定义

ZSL任务的定义如下:设 D s = { ( x s i , y s i , c ( y s i ) ) ∣ i = 1 , 2 , . . . , N } D_s = \{ (x_s^i, y_s^i, c(y_s^i)) \mid i = 1, 2, ..., N \} Ds={(xsi,ysi,c(ysi))i=1,2,...,N}表示训练样本集(即已见样本)。具体来说, x s i ∈ X s x_s^i \in X_s xsiXs表示来自已见类别的第i个遥感图像场景的视觉图像特征,其中图像特征是由CNN模型提取的。 y s y_s ys表示来自已见类别的第i个遥感图像场景的标签, c ( y s ) ∈ C s c(y_s) \in C_s c(ys)Cs表示相应类别的语义表示(例如,SR-RSKG)。N表示训练样本的数量。同样,我们定义 X u , Y u , C u X_u, Y_u, C_u Xu,Yu,Cu为未见过的视觉图像特征、相应的标签和语义表示。众所周知,对于ZSL和GZSL,已见类别和未见类别是不相交的,即 Y s ∩ Y u = ∅ Y_s \cap Y_u = \emptyset YsYu=。给定训练数据集 D s D_s Ds { Y u , C u } \{Y_u, C_u\} {Yu,Cu},在传统的ZSL中,任务是学习一个分类器 F Z S L : X u → Y u F_{ZSL}: X_u \rightarrow Y_u FZSL:XuYu。在GZSL中,任务是学习一个分类器 F G Z S L : X s ∪ X u → Y s ∪ Y u F_{GZSL}: X_s \cup X_u \rightarrow Y_s \cup Y_u FGZSL:XsXuYsYu

潜在空间中的鲁棒深度对齐网络

在这里插入图片描述

我们不是从视觉空间到语义空间或从语义空间到视觉空间学习映射,而是在潜在空间中学习视觉特征和语义表示的映射,以便我们可以减轻ZSL中的中心性问题(hubness problem)并增强视觉-语义耦合。

首先,我们最小化视觉和语义表示的重建损失。然后,我们在隐藏空间中对齐视觉和语义的分布,这进一步在对齐视觉特征和语义表示的基础上分离了不同类别的特征分布,提高了ZSL任务的性能。

此外,该方法基于潜在空间映射和生成训练样本的方法来训练分类器,平衡了已见和未见类别的分类性能,因此在GZSL任务中也表现出色。值得注意的是,所提到的深度对齐网络本质上试图解决文献中存在的协调表示问题。

L = L V A E + α L C M F R + β L V S D M + γ L M C D D L = L_{VAE} + \alpha L_{CMFR} + \beta L_{VSDM} + \gamma L_{MCDD} L=LVAE+αLCMFR+βLVSDM+γLMCDD

其中 α、β 和 γ 分别是跨模态特征重建损失视觉和语义分布匹配损失以及多类别分布分散损失的权重因子。

视觉特征和语义表示的重建

由于我们提出的方法在潜在空间中学习视觉特征和语义表示的映射,我们首先需要确保每种模态在潜在空间中的表示能力。此外,为了最小化信息的丢失,应尽可能使用潜在向量重建原始数据。因此,我们遵循VAE网络的架构来学习视觉特征和语义表示的重建模型,将视觉特征和语义表示投影到潜在空间中。

在这里插入图片描述

跨模态特征重建(CMFR)

通过视觉特征和语义表示的重建,我们学习了潜在空间中视觉特征和语义表示的表示。接下来,我们需要在潜在空间中对齐它们的表示。我们从两个方面实现这一点。首先是跨模态特征重建(CMFR)。在这里,视觉特征和语义表示交叉输入到另一种模态的编码器中,跨模态特征重建的损失函数可以由公式(5)定义。

在这里插入图片描述

其中 N 表示训练样本的数量, x i x_i xi c i c_i ci分别表示同一类别的视觉特征和语义表示。

视觉和语义分布匹配(VSDM)

第二是视觉和语义分布匹配(VSDM)。视觉特征和语义表示在潜在空间中的分布由 μ ( v ) i , σ ( v ) i \mu(v)_i, \sigma(v)_i μ(v)i,σ(v)i μ ( a ) i , σ ( a ) i \mu(a)_i, \sigma(a)_i μ(a)i,σ(a)i确定。我们通过减少它们之间的距离,进一步匹配潜在空间中视觉特征和语义表示的分布,视觉和语义分布匹配的损失函数可以由公式(6)定义。

在这里插入图片描述

其中 N 表示训练样本的数量, μ ( v ) i \mu(v)_i μ(v)i σ ( v ) i \sigma(v)_i σ(v)i分别表示潜在空间中视觉特征分布的均值和标准差, μ ( a ) i \mu(a)_i μ(a)i σ ( a ) i \sigma(a)_i σ(a)i分别表示潜在空间中语义表示分布的均值和标准差。

多类别分布分散(MCDD)

正如我们之前提到的,遥感图像场景具有显著的类间相似性特征,这对分类任务非常不利。为此,我们增加了约束条件,使潜在空间中不同类别的分布更加分散,多类别分布分散的损失函数可以由公式(7)定义。

在这里插入图片描述

其中 V = [ μ ( a ) 1 , μ ( a ) 2 , . . . , μ ( a ) N ] ∈ R d × N [ \mu(a)_1, \mu(a)_2, ..., \mu(a)_N ] \in \mathbb{R}^{d \times N} [μ(a)1,μ(a)2,...,μ(a)N]Rd×N,H = ( N ⋅ P − W ) / N (N \cdot P - W) / N (NPW)/N,P ∈ R N × N \mathbb{R}^{N \times N} RN×N表示单位矩阵,W ∈ R N × N \mathbb{R}^{N \times N} RN×N表示所有元素都等于1的矩阵,I ∈ R d × d \mathbb{R}^{d \times d} Rd×d是单位矩阵。

实验

N × N N \times N N×N表示单位矩阵, W ∈ R N × N W ∈\mathbb{R}^{N \times N} WRN×N表示所有元素都等于1的矩阵, I ∈ R d × d I ∈\mathbb{R}^{d \times d} IRd×d是单位矩阵。

实验

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/48790.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

ts踩坑!vue3中ts文件用export导出公共方法的ts类型定义

当我们有一个ts文件,定义并export出该function,其中方法里边有定义的变量,方法、钩子函数等多种,并最终return出该变量、方法。 此时 ts规则校验会让我们返回该函数类型。如下 export default function () {const chart ref();c…

Java基础-序列化、泛型、1.8新特性、其他

目录 序列化 什么是序列化?什么是反序列化? Serializable 接口有什么用? serialVersionUID 又有什么用? Java 序列化不包含静态变量吗? 如果有些变量不想序列化,怎么办? 说说有几种序列化…

Yolo-World网络模型结构及原理分析(一)——YOLO检测器

文章目录 概要一、整体架构分析二、详细结构分析YOLO检测器1. Backbone2. Head3.各模块的过程和作用Conv卷积模块C2F模块BottleNeck模块SPPF模块Upsampling模块Concat模块 概要 尽管YOLO(You Only Look Once)系列的对象检测器在效率和实用性方面表现出色…

计网:物理层

写在开头:物理层就负责传送比特0和1, 本质上理解物理层就是理解传输介质哪个表示比特0和1,如:高电平表示1、低电平表示0等 物理层主要任务: 机械特性:指明接口所用接线器的形状和尺寸、引脚数目和排列、固…

【BUG】已解决:requests.exceptions.ProxyError: HTTPSConnectionPool

已解决:requests.exceptions.ProxyError: HTTPSConnectionPool 目录 已解决:requests.exceptions.ProxyError: HTTPSConnectionPool 【常见模块错误】 原因分析 解决方案 欢迎来到英杰社区https://bbs.csdn.net/topics/617804998 欢迎来到我的主页&am…

Android Studio 输出信息出现乱码

现象 解决办法 一、第一步 二、第二步 添加如下代码: 直接复制进去即可 -Dfile.encodingUTF-8 注意 :最后,添加后重新编译工程,如果还是发现乱码,则需要关闭Android Studio重新启即可

Spring Security之安全异常处理

前言 在我们的安全框架中,不管是什么框架(包括通过过滤器自定义)都需要处理涉及安全相关的异常,例如:登录失败要跳转到登录页,访问权限不足要返回页面亦或是json。接下来,我们就看看Spring Sec…

Docker核心技术:容器技术要解决哪些问题

云原生学习路线导航页(持续更新中) 本文是 Docker核心技术 系列文章:容器技术要解决哪些问题,其他文章快捷链接如下: 应用架构演进容器技术要解决哪些问题(本文)Docker的基本使用Docker是如何实…

【AI大模型】生成式AI的未来——CHAT还是AGENT?

【AI大模型】CHAt还是AGENt? 最近,许多人工智能公司或者部门都在针对Agent——人工智能体有所动作。 例如: 文心一言智能体 Gnomic智能体 英伟达视觉AI代理 那么人工智能概念中的智能体Agent到底是什么呢?它又为何会突然在人工智…

虚拟化环境中如何实现以业务为中心的网络隔离?Everoute 推出虚拟专有云网络(VPC)功能

目前,不少企业都利用云计算和虚拟化技术提升 IT 系统灵活性、敏捷性和成本效益。然而,云环境的“多租户”特性也为业务安全带来了新的挑战,如何保障不同业务主体或租户之间的数据安全和网络隔离,成为企业关注的焦点。 作为 Smart…

可控硅触发板选型指南

可控硅触发板(SCR Trigger Board)是一种用于触发和控制可控硅(SCR)导通的电子设备。在电力控制、电机驱动、变频调速等领域中,可控硅触发板发挥着至关重要的作用。它通过精确的触发信号,实现对可控硅的启动和控制,从而实现对电路的开关和电流…

【ROS2】高级:安全-理解安全密钥库

目标:探索位于 ROS 2 安全密钥库中的文件。 教程级别:高级 时间:15 分钟 内容 背景安全工件位置 公钥材料 私钥材料域治理政策 安全飞地 参加测验! 背景 在继续之前,请确保您已完成设置安全教程。 sros2 包可以用来创…

昇思25天学习打卡营第25天 | RNN实现情感分类

学习心得:RNN实现情感分类 在自然语言处理(NLP)的领域中,情感分类是一个极具挑战性的任务,它要求模型能够准确地从文本中识别出情感倾向。通过使用MindSpore框架和RNN模型进行情感分类,我获得了许多有关构…

如何理解String的不可变性

一、缓存角度 在Java中对于字符串的处理,是利用字符串池去存储Java中的字符串,在字符串池中,俩个内容相同的字符串变量,可以从池中指向同一个对象,这样就节省了空间资源。 public class Main {public static void ma…

web服务器测试

[rootlocalhost ~]# vim /etc/nginx/conf.d/test_ test_ip.conf test_name.conf test_virtualdir.conf [rootlocalhost ~]# vim /etc/nginx/conf.d/test_name.conf [rootlocalhost ~]# tree /www/

【学习笔记】无人机系统(UAS)的连接、识别和跟踪(五)-无人机跟踪

目录 引言 5.3 无人机跟踪 5.3.1 无人机跟踪模型 5.3.2 无人机位置报告流程 5.3.3 无人机存在监测流程 引言 3GPP TS 23.256 技术规范,主要定义了3GPP系统对无人机(UAV)的连接性、身份识别、跟踪及A2X(Aircraft-to-Everyth…

HarmonyOS应用开发者高级认证,Next版本发布后最新题库 - 单选题序号3

基础认证题库请移步:HarmonyOS应用开发者基础认证题库 注:有读者反馈,题库的代码块比较多,打开文章时会卡死。所以笔者将题库拆分,单选题20个为一组,多选题10个为一组,题库目录如下,…

MySQL0.MSI方式安装

本机运行环境:Windows10 1.下载 进入MySQL官方下载页面:https://downloads.mysql.com/archives/installer/ 红色箭头:点击选择下载的版本 黄色箭头:点击下载MSI安装包 此次下载选择MySQL8.0.37的MSI安装包 2.安装 下载完毕后…

AJAX复习总结

AJAX复习总结 AJAX即“Asynchronous JavaScript and XML”(异步的JavaScript与XML技术),是一种在无需重新加载整个网页的情况下,能够更新部分网页的技术。简单来说,AJAX就是让网页变得更快、更灵活的一种方法 举个例子&#xff1a…

水表数字识别3:Pytorch CRNN实现水表数字识别(含训练代码和数据集)

水表数字识别3:Pytorch CRNN实现水表数字识别(含训练代码和数据集) 目录 水表数字识别3:Pytorch CRNN实现水表数字识别(含训练代码和数据集) 1.前言 2. 水表数字识别的方法 3. 水表数字识别数据集 4. 水表数字分割模型训练 5. 水表数字识别模型训…