基于多视角融合的夜间无人车三维目标检测

基于多视角融合的夜间无人车三维目标检测

人工智能技术与咨询 

来源:《应用光学》,作者王宇岚等

摘 要:为了提高无人车在夜间情况下对周围环境的物体识别能力,提出一种基于多视角通道融合网络的无人车夜间三维目标检测方法。引入多传感器融合的思想,在红外图像的基础上加入激光雷达点云进行目标检测。通过对激光雷达点云进行编码变换成鸟瞰图形式和前视图形式,与红外图像组成多视角通道,各通道信息之间融合互补,从而提高夜间无人车对周围物体的识别能力。该网络将红外图像与激光雷达点云作为网络的输入,网络通过特征提取层、候选区域层和通道融合层准确地回归检测出目标的位置以及所属的类别。实验结果表明,该方法能够提高无人车在夜间的物体识别能力,在实验室的测试数据中准确率达到90%,速度0.43 s/帧,达到了实际应用要求。

关键词:红外图像;激光雷达点云;多视角通道;三维目标检测

引言

夜间无人车在道路上行驶需要感知周围环境的车辆、行人[1-2]等,基于红外摄像头的感知方案[3-5]虽然能够感知车辆前方的障碍物,但是无法准确获取障碍物的位置信息且准确率有限。激光雷达是一种主动传感器,通过发射与接收激光光束获取环境中物体的信息[6-7]。近几年陆续有研究人员利用深度学习在激光雷达点云上进行目标检测,斯坦福大学的Point Net[8]直接将激光点云作为输入,并解决了旋转问题和无序性问题。2017年苹果公司Voxel Net[9]将激光雷达分成等间距的体素,并引入新的体素特征编码表示,在KITTI[10]上取得很好的成绩。清华大学提出了MV3D[11],将彩色图像与激光雷达点云融合进行三维目标检测,该算法在KITTI 上也表现出色。

上述前人的研究工作基本都是在白天条件下的彩色图像上进行,而在夜间,无人车往往需要依赖红外图像,但红外图像的成像原理是通过红外摄像头探测物体自身的红外辐射,再通过光电变换将物体的温度分布变换成图像。红外图像具有无色彩、简纹理、低信噪比等特点。因此在红外图像上进行目标检测效果较差。考虑到各个传感器在不同方面均有利弊,本文利用多传感器融合的思想,提出了利用多视角通道融合网络的基于红外图像与激光雷达点云的夜间无人车三维目标检测方法。实验结果证明,该方法的准确率高且能基本满足实时性的要求。

1 多视角通道融合网络

本文所采用的多视角通道融合网络由特征提取模块、候选区域生成模块和通道融合模块组成,整体结构图如图1所示。

特征提取模块由特征编码网络和特征解码网络2 部分组成,结构如图2所示。

图1 多视角通道融合网络结构图
Fig.1 Structure diagram of multi-view channel fusion network

图2 特征提取模块结构图
Fig.2 Structure diagram of feature extraction module

特征编码网络采用的是改进后的VGG(visual geometry group)16 网络[12],将原VGG16 网络的通道数减少一半至50%,然后在网络中加入批标准化层,并在Conv4 删除最大池化层。特征编码网络将M×N×C的红外图像、鸟瞰图或前视图作为输入,并输出 

的特征图。式中,M表示图像的长,N表示图像的宽,C表示通道数。对于红外图像,C为1。特征解码网络采用特征金字塔网络[13]的形式,学习将特征映射上采样回原始的输入大小。特征解码网络将特征编码网络的输出作为输入,输出新的 M×N×D的特征图,如图2所示,通过转换-转置操作对输入进行上采样处理,并和来自特征编码网络的对应特征映射进行级联操作,最后通过3×3 卷积来融合二者。

输入一幅鸟瞰图,候选区域生成模块会生成一系列的三维候选区域。每个三维候选区域有六维的参数:(x,y,z,l,w,h),分别表示三维候选区域在激光雷达坐标系中的中心坐标和长宽高尺寸。对于每个三维候选区域,对应在鸟瞰图中的参数(xbv,ybv,lbv,wbv)利 用离散的 (x,y,l,w)变换可以得到,表示三维候选区域在鸟瞰图中的坐标和长宽,其中 离散分辨率为0.1 m。

通道融合模块结合各个视角的特征,对各视角上的目标进行联合分类,并针对三维候选区域进行定向回归。由于不同的视角有不同的分辨率,对于每个视角通道所输出的不同分辨率的特征向量,通过ROI(region of interest)池化操作将每个视角通道所输出的特征向量调整到相同的长度。通过下式得到3 个视角不同的ROI。

式中:T3D→v表示从激光雷达点云坐标系到鸟瞰图形式、前视图形式,和红外图像的转换函数;P3D表示三维候选区域参数向量。对于区域候选网络所生成的三维候选区域,将其投影到经过ROI池化操作的鸟瞰图形式(BV)特征向量、前视图(FV)特征向量和红外图像(IR)特征向量中。对于从某个视角特征提取通道中输出的特征向量 x,通过ROI池化获得固定长度的特征 fv。

式中:R表示相应的矩阵变换。为了融合来自各个视角通道的特征信息,采用多层次融合的方法,分层融合多视角特征,使得各通道的信息可以在中间层有更多的交互。如图3所示。

图3 通道融合网络结构图
Fig.3 Structure diagram of channel fusion network

对于通道融合网络的每一层,输入为鸟瞰图形式、前视图形式以及红外图像3 个通道的特征,经过一次逐元素平均计算后,再经过各自的中间卷积层进一步提取特征。具体的融合过程如下式所示。

式中:fl表示第 l层的融合结果;fBV、fFV和 fIR分别表示鸟瞰图通道、前视图通道以及红外图像通道的输入特征;

表示第l层不同通道的中间卷积层;⊕表示逐元素平均运算;经过通道融合网络融合各个视角通道的特征之后,利用融合结果对候选区域模块生成的三维候选区域进行回归校正,并将融合结果输入Softmax 分类器对三维候选区域内的物体进行分类识别。

2 实验内容

2.1 实验配置与数据预处理

本文算法中的网络基于Tensor Flow[14]框架,实验硬件配置为处理器Intel i5-6600,内存16 GB,显卡NVIDIA GTX 1070;操作系统Ubuntu14.04。实验的所有数据由载有红外摄像头和激光雷达的车辆在南京理工大学夜晚的校园道路上拍摄所得,有车辆、行人和骑自行车的人3 种类别。其中训练集为1 500 张红外图像及其对应的由激光雷达点云数据,验证集为500 张红外图像及其对应的由激光雷达点云数据,测试集为600 张红外图像及其对应的由激光雷达数据。

对于激光雷达点云数据,其中每一个点由其三维坐标 (x,y,z)和 反射率 r组成,本文将其转化为鸟瞰图与前视图的形式。鸟瞰图形式指的是沿水平坐标系(地面)将激光雷达点云分割成700×800 的网格,再沿Z轴方向把激光雷达点云平均分成5 层。对于每一个区域,提取其中最大高度的点的高度作为高度特征;该长方体区域内点的数目作为密度特征;对于密度特征ρ,作归一化处理。

式中N是长方体区域内点的数目。最后将激光雷达点云转换成通道数为700×800×6 的鸟瞰图形式。前视图形式指的是将激光雷达点云投射到一个前方的圆柱体平面上。给定激光雷达点云中的一个点的三维坐标 p=(x,y,z),其在前视图中的坐标 pfv=(r,c)可以通过下式计算得出。

式中:Δθ是 激光的水平分辨率;Δϕ是垂直分辨率。

2.2 实验结果及分析

把红外图像与激光点云数据输入到多视角通道融合网络中,网络给出检测结果。由于红外摄像头与激光雷达的采集频率不一致,本文根据激光雷达帧号匹配红外图像,设定阈值为10 帧,寻找与雷达帧号小于阈值且最接近的图像作为对应图像,如图4所示。

图4 输入的红外图像与对应的激光雷达点云
Fig.4 Input infrared image and lidar point cloud

使用传统的AdaBoost[15]算法、和二维的目标检测算法Fast RCNN[16]算法、Faster RCNN[17]算法以及三维的目标检测算法Voxel Net[10]在测试集中进行测试,并与本文算法进行结果对比,结果见表1。

从表1的结果中可得,本文算法在牺牲部分时间的情况下提高了夜间目标检测的正确率。为了更直观地显示本文算法结果,将目标检测的结果显示在激光雷达点云的鸟瞰图形式上和红外图像上,其中绿色矩形框表示行人,红色矩形框表示车辆。如图5所示。

表1 不同算法在测试集上的结果对比
Table1 Comparison of results for different algorithms on test sets

图5 目标检测可视化结果
Fig.5 Visualized result of detection

由图5可以看出,对于图5(a 组),本文算法可以很好地定位行人的位置;对于图5(b 组),虽然红外图像分辨率较低,连人眼也不容易分辨图片中的车辆,但加入激光雷达点云信息后对于该车的定位准确;对于图5(c 组),本文算法定位结果与人工标注信息一致。

3 结论

本文采用多传感器融合的思想,在原有红外图像的基础上加入激光雷达点云,并使用多视角通道融合网络对这2 种数据进行特征融合,准确地检测出目标的位置以及类别。实验结果表明,该方法能够提高无人车在夜间的物体识别能力,在实验室的测试数据中准确率达到90%,每帧耗时0.43 s,达到实际应用要求。

我们的服务类型

公开课程

人工智能、大数据、嵌入式                    

内训课程

普通内训、定制内训                         

项目咨询

技术路线设计、算法设计与实现(图像处理、自然语言处理、语音识别)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/481771.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

清华邓志东:城市智能路网新基建催生路端世界级企业

2022年7月16日,中国指挥与控制学会(CICC)城市大脑专业委会在北京正式成立。在成立大会上也举办了城市大脑前沿学术研讨会,新当选的专委会顾问、主任委员、副主任委员发表了最新研究成果和观点,对城市大脑的未来发展进行…

机器学习的可解释性

机器学习的可解释性 人工智能技术与咨询 来源:《计算机研究与发展》,作者陈珂锐等 摘 要 近年来,机器学习发展迅速,尤其是深度学习在图像、声音、自然语言处理等领域取得卓越成效.机器学习算法的表示能力大幅度提高&#xff0c…

对话加拿大工程院于非院士:寻找 AI 领域的「香农定理」

来源:AI科技评论作者:黄楠、青暮编辑:陈彩娴我相信智能是一种自然现象,就像岩石滚动和冰雪融化般自然的现象。——摘自于非著作《智能简史——从大爆炸到元宇宙》。当科学家把一些菟丝子移植到几株营养状态不同的山楂树上时&#…

工业人工智能及应用研究现状及展望

工业人工智能及应用研究现状及展望 人工智能技术与咨询 来源:《自动化学报》,作者李杰等 摘 要 工业4.0 将工业制造流程以及产品质量优化从以前依照经验和观察进行判断转变为以事实为基础,通过分析数据进而挖掘潜在价值的完整智能系统.人工智能技术的…

机器学习理论基础炼丹总结

来源:Datawhale机器学习发展迅猛,但对理论知识的理解却跟不上?本文将给出一名数据科学家的反思,他通过效用矩阵梳理了模型的实验结果和基础理论的关系,并探讨机器学习各个子领域的进展。引入知其然,知其所以…

基于改进SSD的车辆小目标检测方法

基于改进SSD的车辆小目标检测方法 人工智能技术与咨询 来源:《应用光学》,作者李小宁等 摘 要:地面车辆目标检测问题中由于目标尺寸较小,目标外观信息较少,且易受背景干扰等的原因,较难精确检测到目标。…

AlphaFold预测了几乎所有已知蛋白质!涵盖100万物种2.14亿结构,数据集开放免费用...

来源:量子位 | 公众号 QbitAI明敏 发自 凹非寺全世界几乎所有已知蛋白质结构,都被AlphaFold预测出来了!在预测出人类98.2%蛋白质一年后,DeepMind的重磅成果再次引爆学术界。包括植物、细菌、真菌在内的100万个物种、2.14亿个蛋白质…

融合零样本学习和小样本学习的弱监督学习方法综述

融合零样本学习和小样本学习的弱监督学习方法综述 人工智能技术与咨询 来源:《系统工程与电子技术》,作者潘崇煜等 摘 要: 深度学习模型严重依赖于大量人工标注的数据,使得其在数据缺乏的特殊领域内应用严重受限。面对数据缺乏等现实挑战&…

什么是文档智能?微软亚研最新《文档智能:数据集、模型和应用》综述

来源:专知微软亚洲研究院最新《文档智能:数据集、模型和应用》综述文档智能是指通过计算机进行自动阅读、理解以及分析商业文档的过程,是自然语言处理和计算机视觉交叉领域的一个重要研究方向。近年来,深度学习技术的普及极大地推动了文档智能领域的发展…

一种基于伪标签半监督学习的小样本调制识别算法

一种基于伪标签半监督学习的小样本调制识别算法 人工智能技术与咨询 来源:《西北工业大学学报》,作者史蕴豪等 摘 要:针对有标签样本较少条件下的通信信号调制识别问题,提出了一种基于伪标签半监督学习技术的小样本调制方式分类…

Intelligent Computing首期论文发表了哪些前沿研究?

来源:之江实验室Intelligent Computing创刊首期论文中,牛津大学计算机系主任、谷歌DeepMind-Oxford合作负责人Michael Wooldridge教授发表了关于人工智能未来发展趋势和关键技术的前瞻性观点论文;蚁群智能创始人、比利时布鲁塞尔自由大学Marc…

基于深度卷积神经网络的目标检测研究综述

基于深度卷积神经网络的目标检测研究综述 人工智能技术与咨询 来自《光学精密工程》 ,作者范丽丽等 摘要:作为计算机视觉中的基本视觉识别问题,目标检测在过去的几十年中得到了广泛地研究。目标检测旨在给定图像中找到具有准确定位的特定对…

Yann LeCun开怼谷歌研究:目标传播早就有了,你们创新在哪里?

来源:机器之心在昨日的学术圈,图灵奖得主Yann LeCun对谷歌的一项研究发起了质疑。前段时间,谷歌 AI在其新研究《LocoProp: Enhancing BackProp via Local Loss Optimization》中提出了一种用于多层神经网络的通用层级损失构造框架LocoProp&am…

基于深度学习的场景分割算法研究综述

基于深度学习的场景分割算法研究综述 人工智能技术与咨询 来自《计算机研究与发展》 ,作者张 蕊等 摘 要 场景分割的目标是判断场景图像中每个像素的类别.场景分割是计算机视觉领域重要的基本问题之一,对场景图像的分析和理解具有重要意义,…

DeepMind 首席科学家 Oriol Vinyals 最新访谈:通用 AI 的未来是强交互式元学习

整理:李梅编辑:陈彩娴自 2016 年 AlphaGo 在围棋中击败人类以来,DeepMind 的科学家一直致力于探索强大的通用人工智能算法,Oriol Vinyals 就是其中之一。Vinyals 于 2016 年加入 DeepMind,目前任首席科学家&#xff0c…

卷积神经网络结构优化综述

卷积神经网络结构优化综述 人工智能技术与咨询 来源:《自动化学报》 ,作者林景栋等 摘 要 近年来,卷积神经网络(Convolutional neural network,CNNs)在计算机视觉、自然语言处理、语音识别等领域取得了突飞猛进的发展,其强大的特征学习能力引起了国内…

梅勒妮·米切尔 | 复杂性科学将如何颠覆我们对世界的认知?

来源:哲学人作者:梅勒妮米切尔(Melanie Mitchell) 波特兰州立大学计算机科学教授,圣塔菲研究所(Santa Fe Institute)外聘教授和科学委员会成员1894年,物理学家、诺贝尔奖得主阿尔伯…

基于三维激光点云的目标识别与跟踪研究

基于三维激光点云的目标识别与跟踪研究 人工智能技术与咨询 来源:《汽车工程》 ,作者徐国艳等 [摘要] 针对无人车环境感知中的障碍物检测问题,设计了一套基于车载激光雷达的目标识别与跟踪方法。为降低计算量&#…

北大谭营教授:推动CICC城市大脑专委会的发展建议

2022年7月16日,中国指挥与控制学会(CICC)城市大脑专业委会在北京正式成立。在成立大会上也举办了城市大脑前沿学术研讨会,新当选的专委会顾问、主任委员、副主任委员发表了最新研究成果和观点,对城市大脑的未来发展进行…

战斗机嵌入式训练系统中的智能虚拟陪练

战斗机嵌入式训练系统中的智能虚拟陪练 人工智能技术与咨询 来源:《航空学报》 ,作者陈斌等 摘 要:智能化“实虚”对抗是现代先进战斗机嵌入式训练系统的重要功能需求。自主空战决策控制技术在未来空战装备发展中扮演关键角色。将当前的功…