comparing ORB and AKAZE

文章全称是《Comparing ORB and AKAZE for visual odometry of unmanned aerial vehicles》。这是一篇来自巴西的文章,没有在百度文库中找到,是在其他博客中给出的链接得到的。从链接的URL可以看出这是一篇来自会议CCIS云计算与智能系统国际会议的文章。

文章将特征点检测和匹配的方法应用在了无人控制飞行器Unmanned Aerial Vehicles(UAV),也就是无人机drone上。无人控制,就必须知道飞行器的实时位置,我们当然可以使用GPS,但是GPS也有一些缺点,比如一些极端天气下GPS信号被干扰,而考虑到飞行器上安装了越来越多的传感器如摄像头,所以可使用计算机视觉的方法来实现。

利用捕捉到的图像计算UVA的displacement,估计UAV的飞行位置的方法就叫做visual odometry。文章中作者主要比较了ORB算法和AKAZE算法。结论是AKAZE在实时性的表现和准确度之间可以取得更好的平衡。

UAV需要捕获连续的图像帧,帧之间有足够多的重叠场景,这样才能通过图像之间的变化来估计变化。下图是UAV捕捉到的场景连续的图像。可以看到两幅图像之间主要是视角发生了变化,或者是飞行器姿态发生了变化。

特征点的检测步骤,ORB使用改进的FAST算法检测特征点,改进后可以实现对于旋转的不变性。AKAZE相比于KAZE,在构建非线性金字塔中使用了Fast Explicit Diffusion(FED)来加速。在特征点的描述中,ORB基于BRIEF方法,这种方法在图像的平滑版本中的特征点周围建立二进制的数据集binary tests。但是BRIEF分缺陷是对平面旋转in-plane rotation没有鲁棒性,ORB使用学习方法learning method找到相关性更小的二进制对,并选择了其中性能好的子集,使得最近邻匹配中可以得到很好的效果。AKAZE的描述子是基于(LDB)Local Difference Binary.改进得到了M-LDB,挖掘出了梯度和密度的信息(exploits gradient and intensity information),改进的版本由方格的下采样构成(consists of subsampling the grid),而不是使用子方格中所有像素的均值。描述子生成的步骤是特征点的尺度的函数,所以采样时的尺度独立保证了描述子是尺度不变的。This is performed in steps that are a function of the scales of the feature, so that the scale-dependent sampling makes the descriptor robust to changes in scale.在特征点匹配中,可以使用相似性或者距离来比较两个特征点,ORB和AKAZE均使用的是二进制的描述子,所以他们都使用了汉明距离来进行高效的匹配。

实验图像来自两个不同的数据集。一个含1098个7360x4912的图像,摄像头是SONY ILCE-7R,焦距45mm,安装在固定翼飞行器上,飞行高度平均360m,飞行区域是乡村区域。第二个数据集由4000x3000的148幅图像构成。图像来自Canon PowerShot S110摄像头,焦距长度5.2mm,安装在四轴飞行器上,平均飞行高度是28m,飞行区域在市区标志性建筑附近。遗憾的是文章没有给出数据集的链接。

上图是第一个的乡村图像数据集的例子。之前含汽车的图像是是城市数据集的图像。

检测和匹配的特征对算法表现有直接的影响。在作者的实验中,将图像大小缩放为736x491和640x480大小,从而便于实时处理。

表1表2表示了两种算法分别在两种数据集下的特征点匹配数和运行时间的情况。运行时间是在使得两种算法检测得到的特征点数目相等下进行测量的。可以看到,ORB的速度约是AKAZE的3倍。

特征点的匹配过程中会有错误匹配对,文章使用了RANSAC方法进行特征点匹配对的提纯。RANSAC通过迭代,可以将样本点分为内点和外点两部分,内点用来回归分析,外点则认为是一些畸变点。

表3和表4是在两个数据集下两种算法的内点占比情况。AKAZE的正确匹配对比重的均值average ratio of correct matching(their accuracy)更高。

图3是使用所有特征点和仅仅使用内点进行配对的情况。可以看到在b中特征点更少,匹配情况更准确。B中的绿色框是左图以拟合得到的矩阵变换得到的。

结论

ORB比AKAZE要快,并且AKAZE的运行时间随着图像分辨率的增加快速增加,然而,在剔除外点之后,AKAZE有更多的正确匹配对。对于分辨率为640x480的低分辨率图像,AKAZE在速度和结果表现之间取得了一个更好的平衡。这篇文章的实验图像来自UAV搭载的摄像头,作者接下来的工作是在真实visual adometry应用中验证两种算法在估计UAV位置中的准确性。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/493635.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

利用 CRISPR 基因编辑技术,人类正在做七件“疯狂”的事

来源:36Kr编译:喜汤很少有哪种现代科学创新能像CRISPR基因编辑技术一样影响深远。有了它,科学家们可以精确地改变任何细胞的DNA。CRISPR技术成为新宠,部分原因是它比早期基因编辑技术更容易使用。尽管CRISPR还没有彻底大展身手&am…

吴恩达作业3:利用深层神经网络实现小猫的分类

利用4层神经网络实现小猫的分类,小猫训练样本是(209,64*64*312288),故输入节点是12288个,隐藏层节点依次为20,7,5,输出层为1。 首先看文件路径,dnn_utils_v2.py代码是激活…

A-KAZE论文研读

AKAZE是KAZE的加速版本。KAZE在构建非线性空间的过程中很耗时,在AKAZE中将Fast Explicit Diffusion(FED)加入到金字塔框架可以dramatically speed-up。在描述子方面,AKAZE使用了更高效的Modified Local Difference Binary(M-LDB),可以从非线性…

和你抢“饭碗”的40家服务机器人企业大盘点!

来源:物联网智库摘要:本文将对国内近40家服务机器人企业进行汇总介绍,所选企业在其相应版块活跃度较高。从三个大类进行了细分盘点。国家机器人联盟(IFR)根据应用环境将机器人分为了工业机器人和服务机器人。服务机器人…

YOLO9000

YOLO9000是YOLO的第三个版本。前两个版本是YOLO v1,YOLO v2,在CVPR2017的文章《Better,Faster,Stronger》中的前半部分都是对前两个版本的介绍,新的内容主要在Stronger部分。YOLO9000中的9000指的是YOLO可以对超过9000种图像进行分类。 Bett…

吴恩达作业4:权重初始化

权重初始化的 正确选择能够有效的避免多层神经网络传播过程中的梯度消失和梯度爆炸问题,下面通过三个初始化的方法来验证: sigmoid导数函数:最大值小于0.25,故经过多层反向传播以后,会导致最初的层,权重无…

先发制人!Waymo将首推商用载人自动驾驶服务,Uber们怕不怕?

编译:费棋来源:AI科技大本营“真的,真的很难。”11 月举办的一场会议上,Alphabet 旗下 Waymo CEO John Krafcik 对做自动驾驶汽车技术的艰难不无感慨。在他看来,未来几十年内,自动驾驶汽车将一直存在限制&a…

利用ORB/AKAZE特征点进行图像配准

Kp1,kp2都是list类型,两幅图都是500个特征点。这和ORB论文中的数据是一样的。4.4章节 Matches也是list类型,找到325个匹配对。 AKAZE文章中提到一个指标:MS(matching score)# Correct Matches/# Features, 如果overlap area error 小于40%…

吴恩达作业5:正则化和dropout

构建了三层神经网络来验证正则化和dropout对防止过拟合的作用。 首先看数据集,reg_utils.py包含产生数据集函数,前向传播,计算损失值等,代码如下: import numpy as np import matplotlib.pyplot as plt import h5py …

十年之后,数字孪生将这样改变我们的工作与生活

来源:资本实验室数字孪生是近几年兴起的非常前沿的新技术,简单说就是利用物理模型,使用传感器获取数据的仿真过程,在虚拟空间中完成映射,以反映相对应的实体的全生命周期过程。在未来,物理世界中的各种事物…

什么是图像

图像,尤其是数字图像的定义,在冈萨雷斯的书中是一个二维函数f(x,y),x,y是空间平面坐标,幅值f是图像在该点处的灰度或者强度。下面通过OpenCV中最常用的图像表示方法Mat来看一下在计算机中是怎么定义图像的。 Mat的定义 OpenCV在2.0之后改用…

吴恩达作业6:梯度检验

梯度检验的目的就是看反向传播过程中的导数有没有较大的误差,首先看Jtheta*x的梯度检验:代码如下 import numpy as np """ Jx*theta的前向传播 """ def forward_propagation(x,theta):Jx*thetareturn J ""&quo…

10年后的计算机会是怎样的?

作者:孙鹏(剑桥大学计算机系博士)来源:新原理研究所上个世纪三十年代,邱奇和图灵共同提出了通用计算机的概念[1]。在接下来的十多年里,因为战争需要下的国家推动,计算机得以很快从理论发展成为实…

什么是图像变换

还是看OpenCV官方手册,我觉得这样可以同时学习如何使用函数和如何理解一些基本概念。 首先,这里的几何变换geometrical transformations是针对2D图像而言的,不改变图像内容而是将像素网格变形deform the pixel grid,映射到目标图…

MSRA20周年研究趋势文章|图像识别的未来:机遇与挑战并存

文/微软亚洲研究院 代季峰 林思德 郭百宁识别图像对人类来说是件极容易的事情,但是对机器而言,这也经历了漫长岁月。在计算机视觉领域,图像识别这几年的发展突飞猛进。例如,在 PASCAL VOC 物体检测基准测试中,检测器的…

吴恩达作业7:梯度下降优化算法

先说说BatchGD用整个训练样本进行训练得出损失值,SGD是只用一个训练样本训练就得出损失值,GD导致训练慢,SGD导致收敛到最小值不平滑,故引入Mini-batch GD,选取部分样本进行训练得出损失值, 普通梯度下降算…

什么是单应矩阵和本质矩阵

知乎上面的大牛还是很多,直接搜Homography或者单应矩阵就能得到很多大神的回答,可能回答中的一句话或者一个链接就够自己学习很久。 其实在之前研究双目视觉的时候就接触了对极几何,通过视觉就可以得到物体的远近信息,这也是特斯…

tensorflow实现反卷积

先看ogrid用法 from numpy import ogrid,repeat,newaxis from skimage import io import numpy as np size3 x,yogrid[:size,:size]#第一部分产生多行一列 第二部分产生一行多列 print(x) print(y) 打印结果: newaxis用法: """ newaxis…

寿命能推算吗?加州大学科学家提出“预测方法”

来源:中国科学报从古至今,从国内到国外,从炼丹术到现代科学,长生不老似乎一直是人类乐此不疲的追求。但若要延缓衰老,首先要弄清是什么造成了衰老。近日,加州大学洛杉矶分校(UCLA)生…

Deep Image Homography Estimation

在知乎问题:深度学习应用在哪些领域让你觉得「我去,这也能行!」?中遇到一篇提交在arXiv 2016(arXiv不是正式发表,只是可以证明原创性,提供时间戳的网站)的文章《Deep Image Homograp…