深度学习论文: SuperPoint: Self-Supervised Interest Point Detection and Description

深度学习论文: SuperPoint: Self-Supervised Interest Point Detection and Description
SuperPoint: Self-Supervised Interest Point Detection and Description
PDF: https://arxiv.org/pdf/1712.07629
PyTorch代码: https://github.com/shanglianlm0525/CvPytorch
PyTorch代码: https://github.com/shanglianlm0525/PyTorch-Networks

1 概述

本文提出了一个自监督框架,用于训练适用于计算机视觉中多视图几何问题的兴趣点检测器和描述符。全卷积模型在完整图像上操作,联合计算兴趣点位置和描述符。通过引入单应性适应方法,提升兴趣点检测的重复性和跨域适应性。在MS-COCO数据集上训练后,提出的模型在HPatches上实现了最先进的单应性估计结果。
在这里插入图片描述
为了生成伪真实兴趣点,首先在“合成形状”数据集上训练了一个全卷积神经网络,得到了MagicPoint检测器。尽管它在真实图像上表现良好,但仍存在不足。为了改进在真实图像上的性能,采用单应性适应技术,通过多次扭曲输入图像来帮助检测器从多个视角和尺度观察场景。结合单应性适应和MagicPoint检测器,得到了性能更优越的SuperPoint检测器。最后,为了进行更高级别的任务,将SuperPoint与描述符子网络结合使用。
在这里插入图片描述

2 SuperPoint Architecture

SuperPoint,一个全卷积神经网络架构,能够在一次前向传播中处理全尺寸图像,并同时实现兴趣点检测与固定长度描述符的生成。该模型的核心是一个共享的编码器,用于降低输入图像的维度。之后,架构分为两个解码器头:兴趣点检测头和描述符头。
在这里插入图片描述
Shared Encoder: SuperPoint采用VGG风格的编码器,通过卷积层、最大池化层和非线性激活函数来降低图像维度。编码器的输出是一个中间张量,具有较小的空间维度( H c = H / 8 H_{c} = H / 8 Hc=H/8 and W c = W / 8 W_{c} = W / 8 Wc=W/8)和较大的通道深度(64 + 1)。
Interest Point Decoder: 兴趣点解码器输出一个张量,其中每个像素表示输入图像中对应位置的“点性”概率。为每个8×8像素网格区域加上一个“无兴趣点”选项,通过softmax操作,移除“无兴趣点”并最终得到一个全分辨率的兴趣点概率图。
Descriptor Decoder: 描述符头生成一个密集的描述符图,首先输出一个半密集的描述符网格,然后通过双三次插值和L2归一化,得到固定长度且单位长度的描述符。这种设计减少了训练内存需求并保持了运行时的可行性。

3 Synthetic Pre-Training

由于没有大规模带有兴趣点标签的图像数据库,因此创建了一个包含简化二维几何形状(如四边形、三角形、线条和椭圆)的合成数据集“合成形状”来启动深度兴趣点检测器。通过将这些形状建模为特定的交点和小元素中心,解决了标签歧义问题。随后,应用单应性变换增加训练样本,实时生成数据,避免网络重复看到相同样本。尽管这些合成兴趣点仅代表真实世界中的一部分,但在实践中用于训练兴趣点检测器时表现良好。
在这里插入图片描述
MagicPoint在合成形状上表现佳,但泛化到真实图像时效果一般,尤其在具有角状结构的场景中表现尚可。然而,与经典检测器相比,它在自然图像中的视角变化下表现较差。因此提出了在真实图像上进行自监督训练的“单应性适应”方法。

4 Homographic Adaptation

Homographic Adaptation的基本思想是在足够大的随机H样本上进行经验性求和(或平均)。即,系统首先为每个目标域图像生成一组伪真实兴趣点位置,通过对输入图像的扭曲副本应用随机单应性变换并综合结果。
在这里插入图片描述
并非所有3x3矩阵都适合单应性适应。本文将其分解为更简单的变换类,并在预定范围内采样。通过组合初始裁剪与平移、缩放、旋转和透视畸变变换,同时避免了边界伪影。
在这里插入图片描述
单应性适应技术可以迭代进行,以持续进行自我监督并改进兴趣点检测器。
在这里插入图片描述

5 Experiments

在这里插入图片描述
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/8296.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【话题】如何看待AI技术,以及AI技术的发展现状和未来趋势

大家好,我是全栈小5,欢迎阅读小5的系列文章,这是《话题》系列文章 目录 背景一、引言二、AIGC技术的发展现状2.1、技术突破与成果2.2、应用领域的拓展2.3、市场规模的增长 三、AIGC技术的未来趋势3.1、技术融合与创新3.2、应用领域的深化3.3、…

绿盟之旅——一段安全实习结束

去年,因为着急找实习,拿着简历就开始海投,当时想的是有人让我去就谢天谢地了,第一个约我面试的就是绿盟,也很顺利的通过了面试,当时让我选择在上海还是北京,我选择的是上海,因为学校…

不要和别人比,要和自己的过去比!才会有进步!

现在的人都喜欢拿自己去和别人比较,当然是和比你混得好的人比,比你弱的你也不会去比。比如这个朋友又换了一辆车,那个朋友又买了一套房,另一个朋友又加薪了等等,比来比去总觉得比不上别人。这样比较对自己很不好&#…

Python脚本批量造数据、跑定时任务协助测试

批量造数据 连接Mysql的信息 1 import pymysql 2 # 数据库连接信息 3 # 多个库要有多个conn 4 conn pymysql.connect( 5 host"主机", 6 user"用户名", 7 password"密码", 8 database"库名" 9 ) 10 conn1 pymysql.connect(…

【组合数学】2842. 统计一个字符串的 k 子序列美丽值最大的数目

本文涉及知识点 组合数学汇总 LeetCode 2842. 统计一个字符串的 k 子序列美丽值最大的数目 给你一个字符串 s 和一个整数 k 。 k 子序列指的是 s 的一个长度为 k 的 子序列 ,且所有字符都是 唯一 的,也就是说每个字符在子序列里只出现过一次。 定义 f…

【小黑送书—第二十期】>>K邻算法:在风险传导中的创新应用与实践价值(文末送书)

01 前言 在当今工业领域,图思维方式与图数据技术的应用日益广泛,成为图数据探索、挖掘与应用的坚实基础。本文旨在分享嬴图团队在算法实践应用中的宝贵经验与深刻思考,不仅促进业界爱好者之间的交流,更期望从技术层面为企业在图数…

8款好用的电脑监控软件分享丨好资源不私藏!

电脑已经成为我们日常生活和工作的重要工具。随之而来的是,电脑监控的需求也逐渐增加。为了帮助大家更好地管理和监控电脑使用情况,本文将为您推荐8款好用的电脑监控软件。这些软件功能强大,易于使用,适用于各种场景,让…

揭秘依赖注入:软件开发人员的基本指南

Dependency injection (DI) is a design pattern and programming technique to manage dependencies between different components. 依赖注入(DI)是一种用于管理不同组件之间依赖关系的设计模式和编程技术。 In DI, the dependencies of a class or ot…

【Linux】-Linux基础命令[2]

目录 一、目录切换相关命令 1、cd 2、pwd 二、相对路径、绝对路径和特殊路径符 1、相对路径和绝对路径 2、特殊路径符 三、创建目录命令(mkdir) 四、文件操作命令 1、touch 创建文件 2、cat查看文件内容 3、more查看文件内容 4、cp命令复制文…

【JAVA |数组】数组定义与使用、常见的Arrays类介绍

目录 一、前言 二、数组的创建和初始化 三、数组的使用 四、数组是引用类型 1.JVM的内存分配 2.与引用类型变量 3.null 五、二维数组 六、Java中Arrays类的常用方法 1. Arrays.fill ->填充数组 2. Arrays.sort ->数组排序 3. Arrays.toString ->数组打印 …

美易官方:美国经济已现裂痕?美联储再不降息,崩溃即将到来!

美国经济,一度被誉为全球最强大的经济体,如今似乎已显露出脆弱的迹象。华尔街的分析师们纷纷发出警告,呼吁美联储尽快降息,否则一场经济崩溃可能即将来临。 自美联储大幅加息以来,经济学家们一直警告称,高利…

那个在买珠宝的年轻人

金价搭上过山车,今年以来价格一路飙涨。 珍珠身价同步飙升,晋级珠宝圈“新宠”。 文玩圈“减龄”,盘珠串不再只是“老头乐”。 月薪3000的年轻人,悄悄实现“宝石”自由。 黄金珠宝走俏,这届年轻人到底有着怎样的珠宝…

开抖音小店需要交多少保证金?全类目选择,一篇了解

哈喽~我是电商月月 做抖音小店前大家都会搜索“入驻抖音小店需要准备什么东西?”其中就包含了一项:类目保证金的缴纳 那到底要交多少钱?很多新手朋友还是不太了解 今天我就给大家解答这个问题,首先,我们要知道抖店的…

2024年5月软考,别再傻傻啃书了!

备考2024年软考,不听课也不刷题,只是看教材的话,想要考试通过,几乎是不可能的,特别是基础比较薄弱的考生。 为什么只看教材通不过? 如果只是把教材从头到尾看一遍,毫无目的地看书,…

FPGA学习笔记(1)——Vivado和HLS

1 Vivado设计 1.1 FPGA基本知识 Xilinx Atrix-7使用6输入LUT结构(0-63)CLB:可配置逻辑块Slice:每个CLB包含2个Slice(包含查找表LUT和8位寄存器REG)布线池:围绕在CLB周围,衔接FPGA的资源调度I/O块&#xf…

test我说话撒机房环境

testhfsjafjdsbzvbcxn.ztesthfsjafjdsbzvbcxn.ztesthfsjafjdsbzvbcxn.ztesthfsjafjdsbzvbcxn.ztesthfsjafjdsbzvbcxn.ztesthfsjafjdsbzvbcxn.ztesthfsjafjdsbzvbcxn.ztesthfsjafjdsbzvbcxn.z

启动配置 BOOT

在STM32F10xxx里,可以通过BOOT[1:0]引脚选择三种不同启动模式。 STM32微控制器实现了一个特殊的机制,系统可以不仅仅从Flash存储器或系统存储器启动,还可以从内置SRAM启动。 根据选定的启动模式,主闪存存储器、系统存储器或SRAM可…

基于 docker-compose 部署 LNMP 架构

目录 前言 1、任务要求 2、Nginx 2.1 建立工作目录并上传相关安装包 2.2 编写 Nginx Dockerfile 脚本 2.3 准备 nginx.conf 配置文件 3、Mysql 3.1 建立工作目录并上传相关安装包 3.2 编写 Mysql Dockerfile 脚本 3.3 编写 my.cnf 配置文件 4、PHP 4.1 建立工作目录…

系统图表:洞察数据的价值与魅力

在数字化、信息化迅猛发展的今天,数据已经成为企业决策、科学研究、社会管理等领域的核心资源。而如何高效、准确地理解和利用这些数据,成为摆在我们面前的重要课题。系统图表作为数据可视化的重要呈现工具,不仅能帮助我们洞察数据的内在规律…

【Python】字典题

题目:输入一段文本,统计每个字符的个数 in_inputinput(“输入:”) dic{} for char in in_input: if char in dic: dic[char]1 # 字典添加键值对的方法,给字典给键和值的方法 else: dic[char]1 print(dic) for key,value in dic.i…