论文阅读——RemoteCLIP

RemoteCLIP: A Vision Language Foundation Model for Remote Sensing

摘要——通用基础模型在人工智能领域变得越来越重要。虽然自监督学习(SSL)和掩蔽图像建模(MIM)在构建此类遥感基础模型方面取得了有希望的结果,但这些模型主要学习低级别特征,需要注释数据进行微调,并且由于缺乏语言理解,不适用于检索和零样本应用。为了应对这些限制,我们提出了RemoteCLIP,这是第一个用于遥感的视觉语言基础模型,旨在学习具有丰富语义的健壮视觉特征,以及用于无缝下游应用的对齐文本嵌入。为了解决预训练数据的稀缺性,我们利用数据缩放,基于Box-To-Caption(B2C)和Mask-To-Box(M2B)转换转换异构注释,并进一步合并无人机图像,生成12倍大的预训练数据集。RemoteCLIP可应用于各种下游任务,包括零样本图像分类、线性探测、k-NN分类、少拍摄分类、图像-文本检索和对象计数。对16个数据集的评估,包括新引入的用于测试对象计数能力的RemoteCount基准测试,表明Remote CLIP在不同的模型规模上始终优于基线基础模型。令人印象深刻的是,RemoteCLIP在RSICD数据集上的平均召回率比以前的SoTA高9.14%,在RSICD数据集上高8.92%。对于零样本分类,我们的RemoteCLIP在12个下游数据集上的平均准确率高达6.39%,优于CLIP基线

主要介绍数据集生成过程。

框到文本描述(B2C)生成允许基于边界框注释和标签生成对象检测数据集的文本描述。

该方法采用基于规则的方法来生成描述图像中对象的五个不同的字幕,算法1概述了B2C方法。具体来说,前两个字幕是根据目标位置(边界框的中心点)生成的:第一个字幕描述图像中心的对象,而第二个字幕描述不位于中心的对象。这种区分提供了关于图像内对象的空间分布的附加上下文和信息。剩下的三个字幕是通过考虑图像中存在的不同对象类别的数量而生成的。将从边界框注释列表中选择随机对象,并相应地生成标题。如果一个对象的出现次数超过10次,则使用更通用的术语(例如“很多”、“很多”)而不是确切的数字,以增强标题的可读性和可变性。

也有mask到框,再框到描述。

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/748945.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

相机安装位置固定后开始调试设备供电公司推荐使用方法

摄像头安装位置固定后开始调试 设备供电:无电源设备需要连接12V/2A电源并连接到摄像机的DC端口,而有电源的摄像机可以直接连接到220V电源。 连接设备:如果是有线连接,请使用网线将设备连接到电脑(建议直接连接&#…

寻找最优的路测线路(100%用例)C卷(JavaPythonC++Node.jsC语言)

评估一个网络的信号质量,其中一个做法是将网络划分为栅格,然后对每个棚格的信号质量计算。路测的时候,希望选择一条信号最好的路线(彼此相连的栅格集合)进行演示。 现给出R行C列的整数数组Cov,每个单元格的数值S即为该栅格的信号质量(已归一化,无单位,值越大信号越好)。 …

智能合约概述

场景:Alice的在线投票系统 背景:Alice想要创建一个去中心化的在线投票系统,让参与者可以投票给不同的候选人。这个系统将使用以太坊区块链和智能合约来实现。 1. 智能合约概述: Alice设计了一个智能合约,名为VotingC…

hcia复习总结7

1,AR2发送2.0网段的信息给AR1,如果,AR1本身并不存在该网段的路由 信息,则将直接 刷新 到本地的路由表中。 Destination/Mask Proto Pre Cost Flags NextHop Interface 2.2.2.0/24 RIP 100…

【LeetCode热题100】54. 螺旋矩阵

一.题目要求 给你一个 m 行 n 列的矩阵 matrix ,请按照顺时针螺旋顺序 ,返回矩阵中的所有元素。 二.题目难度 中等 三.输入样例 示例 1: 输入:matrix [[1,2,3],[4,5,6],[7,8,9]] 输出:[1,2,3,6,9,8,7,4,5] 示例…

C语言葵花宝典之——文件操作

前言: 在之前的学习中,我们所写的C语言程序总是在运行结束之后,就会自动销毁,那如果我们想将一个结果进行长期存储应该如何操作呢?这时候就需要我们用文件来操作。 目录 1、什么是文件? 1.1 程序文件 1.2…

【NC21874】好串

题目 好串 栈的思想 思路 由于每次加入的都是一对字母 a b ab ab,这说明好串一定满足一个性质: 从给定的字符串开始取,每次取一个子串 a b ab ab,到最后字符串一定为空。 这说明有一个 a a a 则必定有一个 b b b 与其配对。…

C语言每日一题—魔幻矩阵

魔幻矩阵 编程实现9*9以内任意奇数阶方阵的魔幻矩阵。 所谓奇数魔幻矩阵就是n*n的矩阵(n为奇数)的n*n个格子中放入数1到n*n,使得每行、每列、主对角线、付对角线上元素的和都相等。算法生成如下:: 1 ,第一个数字在第一行的中间位置 2,以后每一个数放在前…

PyTorch学习笔记之激活函数篇(一)

文章目录 1、Sigmoid函数1.1 公式1.2 对应图像1.2 生成图像代码1.4 优点与不足1.5 torch.sigmoid()函数 1、Sigmoid函数 1.1 公式 Sigmoid函数的公式: f ( x ) 1 1 e − x f(x) \frac{1}{1e^{-x}} f(x)1e−x1​ Sigmoid函数的导函数: f ′ ( x ) e …

Vue 3 + TypeScript 项目中全局挂载并使用工具函数

一、proxy方式 1.封装日期选择工具函数: 在untils文件夹下新建index.ts,并导出工具函数 /*** 获取不同类型日期* param:类型 dateVal: 是否指定*/ export function getSystemDate(param: any, dateVal: any) {let systemDate dateVal ? new Date(da…

【算法篇】七大基于比较的排序算法精讲

目录 排序 1.直接插入排序 2.希尔排序 3.直接选择排序 4.堆排序 5.冒泡排序 6.快速排序 7.归并排序 排序 排序算法的稳定性:假设在待排序的序列中,有多个相同的关键字,经过排序后,这些关键字的先后顺序不发生改变&#…

编程入行指南:从代码小白到技术大牛的“码农”奇幻漂流

码到三十五 : 个人主页 心中有诗画,指尖舞代码,目光览世界,步履越千山,人间尽值得 ! 在这个飞速发展的信息时代,技术不断推陈出新,程序员若想保持行业翘楚地位,必须持续汲取新知、…

经典机器学习模型(一)感知机模型

经典机器学习模型(一)感知机模型 感知机可以说是一个相当重要的机器学习基础模型,是神经网络和支持向量机的基础。 感知机是一个二分类的线性分类模型,之所以说是线性,是因为它的模型是线性形式的。 从《统计学习方法》中,我们…

Docker Compose基本配置及使用笔记

Docker Compose基本配置及使用笔记 简介 Docker Compose 是一个用于定义和运行多个 Docker 容器应用程序的工具。它使用 YAML 文件来配置应用程序的服务,并通过简单的命令集管理这些服务的生命周期。 1.步骤1 代码如下:docker-compose.yml放在虚拟机roo…

前端项目,个人笔记(一)【Vue-cli - 定制化主题 + 路由设计】

目录 1、项目准备 1.1、项目初始化 1.2、elementPlus按需引入 注:使用cnpm安装elementplus及两个插件,会报错:vueelement-plus报错TypeError: Cannot read properties of null (reading isCE ) ,修改: 测试&#…

Swin—Transformer学习笔记

一、网络框架 二、Patch Merging 图像长和宽减半,通道数增加一倍 三、W-MSA 目的:减少计算量 缺点:窗口之间无法进行信息交互 四、SW-MSA 目的:实现不同window之间的信息交互 为了不增加计算量,移动window并增加Ma…

python多进程数据共享

一、数据共享简介 multiprocessing.Manager 是 Python 的 multiprocessing 模块中的一个类,它提供了一种方便的方法来创建共享对象,这些共享对象可以被多个进程安全地访问和修改。使用 Manager 可以解决多进程并发访问共享资源时的同步问题。 二、常用…

HarmonyOS ArkTS 渲染控制概述 if/else:条件渲染

ArkUI通过自定义组件的build()函数和builder装饰器中的声明式UI描述语句构建相应的UI。在声明式描述语句中开发者除了使用系统组件外,还可以使用渲染控制语句来辅助UI的构建,这些渲染控制语句包括控制组件是否显示的条件渲染语句,基于数组数据…

【数据结构】二叉树OJ题(C语言实现)

✅✅✅✅✅✅✅✅✅✅✅✅✅✅✅✅ ✨✨✨✨✨✨✨✨✨✨✨✨✨✨✨✨ 🌿🌿🌿🌿🌿🌿🌿🌿🌿🌿🌿🌿🌿🌿&#x1…

【C#】int+null=null

C#语法,这玩意不报错 intnullnull,有点不合逻辑 (Int32)(bizRepair0rder.CreateTime. Value - regues.Mlodifylime.Value).TotalMinutes (Int32)(bizRepair0rder.CreateTime. Value - reques.llodifylime.Value).TotalMinutes nullstring是引用类型&…