【论文总结】基于深度学习的特征点提取，特征点检测的方法总结

这里写目录标题

相关工作
1. Discriminative Learning of Deep Convolutional Feature Point Descriptors(2015)
- 网络结构
- sift算法
- 损失函数的构建
2.MatchNet(2015)
- 网络中的组成部分
- 其他组成部分
- 损失函数
- 结果
3.LIFT: Learned Invariant Feature Transform(2016)
- 网络结构
- 训练网络结构
- 损失函数
- 训练和测试
- 结果
4. UCN(Universal Correspondence Network)(2016)
- 网络结构
- - 输入层
  - 全卷积层
  - 卷积空间变换
  - 归一化
- 损失函数
- 测试
对于LOSS做实际对比实验测试
5. SuperPoint Self-Supervised Interest Point Detection and Description(2018)
- 训练网络主体结构
- - （A）base detector 如何训练
  - （B）如何迁移到普通图片
  - （C）joint training
- 损失函数
- 总结
- 结果
6. SuperGlue:Learning Feature Matching with Graph Neural Networks
- 总体框架
- 网络主体
- - 输入部分
  - 自注意力和交叉注意力
  - - 迭代
  - sinkhorn算法
- 损失函数
- 结果
6. Key.Net Keypoint Detection by Handcrafted and Learned CNN Filters(2019)
- 训练步骤
- 测试结果
7. IF-Net An Illumination-invariant Feature Network(2020)
- 训练集
- 网络结构
- 损失函数
- 结果
时间轴
方法总结
数据集总结
与传统算法优劣势对比
应用

1. Discriminative Learning of Deep Convolutional Feature Point Descriptors(2015)

提出一种基于深度学习的特征描述方法能够替代引FT，并且能够很好的应对尺度变化、图像旋转乁透射变换、非刚性变形、光照变化等。使用孪生网络从图块中提取特征信息，并且使用L2距离来描述特征之间的差异。

在这里插入图片描述
这里距离越大相似度越低，距离越小相似度越高
只拿出CNN部分则是特征提取

网络结构

在这里插入图片描述

sift算法

在这里插入图片描述

损失函数的构建

在这里插入图片描述

在两个patch是相等的情况下，用两个patch特征的距离来作为Loss函数，我们希望距离越来越小
在两个patch不相等的情况下，多了,MAX和阈值C，如果两个patch特征的距离>c，LOSS=0，如果两个patch特征的距离<c,则为C-如果两个patch特征的距离
patch不相等希望距离大于C，patch相等希望距离越小越好
这种方法进行训练，可以训练出一个特征提取的CNN网络

2.MatchNet(2015)

网络中的组成部分

在这里插入图片描述

A: Feature network 是双塔结构中的单塔，其中的Bottleneck与Preprocessing层比较重要，是为了防止过拟合加的两个层.

B：Metric network 相当于把特征进行比较，Fully Connected Layer +Softmax层判断两个图像特征之间的距离

在这里插入图片描述

输出把两个塔的输出放到一块，在输出到Metric network

其他组成部分

在这里插入图片描述

损失函数

在这里插入图片描述

结果

在这里插入图片描述

3.LIFT: Learned Invariant Feature Transform(2016)

网络结构

在这里插入图片描述

用了三种方法，集合了detector，orientation,descriptor
detector：把图像切割成不同的patch
orientation：对patch做一个旋转
descriptor：做一个描述
这三个方法是三个不同的文章
在这里插入图片描述

训练网络结构

在这里插入图片描述
训练的时候要先输入4个patch，4个patch要不一样，P1和P2是来自同一个3D点不同视角的图像，相当于P1与P2是匹配的，P3是在不同的3D点回来的一个图像投影，相当于P3,P2,P1是不匹配的，P4是一个不包含任何特征点的特征，是为了防止过拟合去用的
输入的流程就是先进入detector然后对图像进行一个裁剪，紧接着用orientation对图像进行一个旋转，再用descriptor输出图像最终的描述符