OFP--2018


文章目录

  • Abstract
  • Introduction
  • Related Work
    • 2D object detection
    • 3D object detection from LiDAR
    • 3D object detection from images
    • Integral images
  • 3D Object Detection Architecture
    • Feature extraction
    • Orthographic feature transform
      • Fast average pooling with integral images
    • Topdown network
    • Confidence map prediction
    • Localization and bounding box estimation
    • Non-maximum suppression
  • Conclusions

paper

Abstract

事实证明,从单眼图像中检测3D物体是一项极具挑战性的任务,目前领先的系统的性能甚至还达不到基于激光雷达的同类系统的10%。对这种性能差距的一种解释是,现有的系统完全受基于透视图像的表示的支配,其中物体的外观和规模随着深度和有意义的距离而急剧变化,很难推断。在这项工作中,我们认为对3D世界进行推理的能力是3D物体检测任务的基本要素。为此**,我们引入了正交特征变换,它使我们能够通过将基于图像的特征映射到正交三维空间来逃避图像域**。这使我们能够在一个尺度一致且物体之间的距离有意义的领域中,对场景的空间配置进行整体推理。我们将这种转换作为端到端深度学习架构的一部分,并在KITTI 3D对象基准上实现了最先进的性能。

Introduction

任何自主智能体的成功都取决于其检测和定位周围环境中物体的能力。预测、避免和路径规划都依赖于对场景中其他实体的3D位置和尺寸的稳健估计。这使得3D边界盒检测成为计算机视觉和机器人技术中的一个重要问题,特别是在自动驾驶的背景下。迄今为止,三维目标探测的方法主要是利用丰富的LiDAR点云[37,33,15,27,5,6,22,1],而缺乏LiDAR绝对深度信息的纯图像方法的性能明显落后。考虑到现有激光雷达设备的高成本、远距离激光雷达点云的稀疏性以及对传感器冗余的需求,从单眼图像中精确检测3D目标仍然是一个重要的研究目标。
为此,我们提出了一种新的3D目标检测算法,该算法以单眼RGB图像作为输入,产生高质量的3D边界框,在具有挑战性的KITTI基准[8]上实现了单眼方法中最先进的性能。

在许多意义上,图像是一种极具挑战性的形式。透视投影意味着单个物体的比例随着与相机的距离而变化很大;它的外观可以根据不同的视角发生巨大变化;而且3D世界中的距离无法直接推断。这些因素对单目三维目标检测系统提出了巨大的挑战。一种更加无害的表示是许多基于激光雷达的方法中常用的正射影鸟瞰图[37,33,1]。在这种表示下,尺度是均匀的;外表在很大程度上与观点无关;物体之间的距离是有意义的。因此,我们所看到的关键是,尽可能多的推理应该在这个正字法空间中进行,而不是直接在基于像素的图像域上进行。这一点对我们所提出的系统的成功至关重要。然而,目前尚不清楚如何仅从单目图像构建这样的表示。因此,我们引入了正交特征变换(OFT):一种将从透视RGB图像中提取的一组特征映射到正交鸟瞰特征映射的可微分变换。至关重要的是,我们不依赖任何明确的深度概念:相反,我们的系统建立了一个内部表示,能够确定图像中的哪些特征与鸟瞰图上的每个位置相关。我们应用深度卷积神经网络,即自顶向下网络,来局部推理场景的三维结构。我们的主要工作贡献如下:1。我们引入了正交特征变换(OFT),它将基于透视图像的特征映射为正交鸟瞰图,利用积分图像高效地实现快速平均池化。2. 我们描述了一种用于从单目RGB图像预测3D边界框的深度学习架构。3. 我们强调了在3D中对目标检测任务进行推理的重要性。

正交特征变换(OFT)。基于体素的特征g(x, y, z)是通过在投影体素区域上累积基于图像的特征f(u, v)而生成的。体素特征沿着垂直方向折叠,得到平面特征h(x, z)。

Related Work

2D object detection

检测图像中的2D边界框是一个被广泛研究的问题,最近的方法即使在最强大的数据集上也能表现出色[30,7,19]。现有方法大致可分为两大类:直接预测目标绑定盒的单级检测器如YOLO[28]、SSD[20]和RetinaNet[18],以及增加中间区域提议阶段的两级检测器如Faster R- CNN[29]和FPN[17]。迄今为止,绝大多数3D物体检测方法都采用了后一种方法,部分原因是难以从3D空间中固定大小的区域映射到图像空间中可变大小的区域。我们通过OFT变换克服了这一限制,使我们能够利用单级架构的速度和精度优势。

3D object detection from LiDAR

三维目标检测对于自动驾驶具有重要意义,目前已经提出了大量基于激光雷达的检测方法,并取得了相当大的成功。大多数变化源于激光雷达点云的编码方式。Qi et al.[27]的挫败点网络和Du et al.[6]的工作直接对点云本身进行操作,考虑了位于图像上由2D边界框定义的挫败范围内的点子集。Minemura等人[22]和Li等人[16]将点云投影到图像平面上,并对生成的RGB-D图像应用faster - rcnn风格的架构。其他方法,如TopNet[33]、BirdNet[1]和Yu et al.[37],将点云离散成一些鸟瞰图(BEV)表示,该表示编码诸如返回强度或地平面以上点的平均高度等特征。这种表示非常有吸引力,因为它没有展示任何在RGB-D图像中引入的透视伪影,例如,我们工作的主要重点是在那里,因此开发一个隐式的图像模拟这些鸟瞰图。另一个有趣的研究方向是传感器融合方法,如AVOD[15]和MV3D[5],它们利用地平面上的3D物体建议来聚合基于图像和鸟瞰的特征:这一操作与我们的正射影特征变换密切相关。

3D object detection from images

同时,由于缺乏绝对深度信息,从图像中获取三维边界框是一个非常具有挑战性的问题。许多方法从使用上述标准检测器提取的2D绑定框开始,在此基础上,它们要么直接回归每个区域的3D姿态参数[14,26,24,23],要么将3D模板拟合到图像中[2,35,36,38]。也许与我们的工作最密切相关的是Mono3D[3],它通过3D边界框提案密集地跨越3D空间,然后使用各种基于图像的特征对每个提案进行评分。其他探索世界空间中密集3D方案的作品有3DOP[4]和Pham and Jeon[25],它们依赖于使用立体几何对深度的明确估计。上述所有工作的一个主要限制是每个区域建议或边界框都是独立处理的,排除了关于场景3D配置的任何联合推理。我们的方法执行与[3]相似的特征聚合步骤,但在保留其空间配置的同时,对结果建议应用二次卷积网络。

Integral images

自从Viola和Jones b[32]的开创性工作引入积分图像以来,积分图像已经从根本上与目标检测联系在一起。它们已成为许多当代三维目标检测方法的重要组成部分,包括AVOD[15]、MV3D[5]、Mono3D[3]和3DOP[4]。然而,在所有这些情况下,积分图像不会反向传播梯度或构成完全端到端深度学习架构的一部分。据我们所知,之前唯一这样做的工作是Kasagi等人的[13],他们结合了卷积层和平均池化层来降低计算成本。

3D Object Detection Architecture

体系结构概述。前端ResNet特征提取器生成基于图像的特征,这些特征通过我们提出的正字法特征变换映射到正字法表示。自上而下的网络在鸟瞰空间中处理这些特征,并在地平面上的每个位置预测置信度评分S、位置偏移量∆pos、尺寸偏移量∆dim和角度矢量∆ang。

系统的概述如图3所示。该算法主要由五个部分组成:1。前端ResNet[10]特征提取器,从输入图像中提取多尺度特征映射。2. 非正射影特征变换,将每个尺度的基于图像的特征映射转换为正射影鸟瞰图表示。3. 一个自上而下的网络,由一系列ResNet残差单元组成,以一种与图像中观察到的视角效果不变的方式处理鸟瞰特征图。4. 一组输出头,它为每个对象类和地平面上的每个位置生成置信度评分、位置偏移、尺寸偏移和方向矢量。5. 非最大抑制和解码阶段,识别置信图中的峰值并生成离散边界框预测。

Feature extraction

我们架构的第一个元素是一个卷积特征提取器,它从原始输入图像中生成多尺度二维特征映射的层次结构。这些特征编码图像中低层结构的信息,这些信息构成了自顶向下网络用来构建场景隐式3D表示的基本组件。前端网络还负责根据图像特征的大小推断环深度信息,因为该架构的后续阶段旨在消除按比例变化。

Orthographic feature transform

为了在没有透视效果的情况下推断3D世界,我们必须首先将从图像空间中提取的特征映射应用到世界空间中的正交特征映射,我们称之为正交特征变换(OFT)。OFT的目标是用前端特征提取器提取的基于图像的特征映射f(u, v)∈Rn中的相关n维特征填充3D体素特征映射g(x, y, z)∈Rn。体素图是在一个均匀间隔的三维晶格G上定义的,该晶格固定在相机下方距离为y0的地平面上,尺寸为W, H, D,体素大小为r。对于给定的体素网格位置(x, y, z)∈G,我们通过在图像特征图f的面积上积累特征来获得体素特征G (x, y, z),该图像特征图f对应于体素的2D投影。一般来说,每个体素都是一个大小为r的立方体,在图像平面上投射到六边形区域。我们用一个矩形边界框来近似它的左上角和右下角分别是(u1,v1)和(u2,v2)它们由

式中f为相机焦距,(cu,cv)为原理点。

然后,我们可以通过对图像特征图f中投影体素的边界框进行平均池化,将特征分配到体素特征图g中的适当位置:
所得到的体素特征图g已经提供了一个场景的表示,它不受每个视角投影的影响。然而,在大体素网格上运行的深度神经网络通常是非常占用内存的。鉴于我们感兴趣的主要是美联社——皱纹如自主驾驶大多数对象固定在2 d地平面,我们可以通过崩溃使问题更容易处理3 d立体像素特征映射到一个第三,二维表示我们词拼写功能映射h (x, z),地图正字法的特性是通过总结体素特征沿纵轴与一组学习乘法后体重矩阵W (y)∈Rn×n:

在转换成最终的正射影特征图之前转换成中间体素表示的优点是保留了场景的垂直结构信息。这被证明是必不可少的下游任务,如估计高度和垂直位置的对象边界框。

Fast average pooling with integral images

上述方法的一个主要挑战是需要在非常多的区域上聚合特征。例如,一个典型的体素网格设置产生大约150k个边界框,这远远超过了Faster R-CNN[29]架构使用的~ 2k个感兴趣的区域。为了方便在如此大量的区域上进行池化,我们使用了基于积分图像[32]的快速平均池化操作。一个积分图像,或者在这种情况下,积分特征映射F,是使用递归关系从一个输入特征映射F构造出来的
给定积分特征映射F,由边界框坐标(u1,v1)和(u2,v2)定义的区域(见式1)对应的输出特征g(x, y, z)为
这种池化操作的复杂性与单个区域的大小无关,这使得它非常适合我们的应用程序,在我们的应用程序中,区域的大小和形状取决于体素是离相机近还是远。它在原始特征图f方面也是完全可区分的,因此可以用作端到端深度学习框架的一部分。

Topdown network

这项工作的一个重要贡献是强调了三维推理对复杂三维场景中物体识别和检测的重要性。在我们的体系结构中,这个重构组件是由一个子网络执行的,我们称之为自顶向下网络。这是一个简单的卷积网络,具有resnet风格的跳过连接,它在前面描述的OFT阶段生成的2D特征图h上运行。由于自顶向下网络的滤波器是卷积的,所以所有的处理对特征在地平面上的位置是不变的。这意味着,距离相机较远的特征图与距离较近的特征图得到完全相同的处理,尽管对应的图像区域要小得多。我们的目标是,最终的特征表示将因此捕获纯粹关于场景的底层3D结构的信息,而不是它的2D投影。

Confidence map prediction

在2D和3D方法中,检测通常被视为分类问题,使用交叉熵损失来识别图像中包含物体的区域。然而,在我们的应用中,我们发现采用Huang等人的置信图回归方法更为有效。置信图S(x, z)是一个平滑函数,它表示存在以位置(x, y0,z)为中心的有边界框的物体的概率,其中y0是相机到地平面的距离。给定一组N个具有边界框中心的基础真值对象pi = 【xi yi zi】T,i =1,…, N,我们将地面真值置信映射计算为每个目标中心周围宽度为σ的光滑高斯区域。位置(x, z)的置信度由
我们的网络的置信度图预测头是通过1损失来训练的,以回归到正字法网格h上每个位置的地面真实置信度。一个有充分记录的挑战是,正(高置信度)位置比负位置少得多,这导致损失的负分量主导优化[31,18]。为了克服这个问题,我们将对应于负位置(我们将其定义为S(x, z) < 0.05的位置)的损失按10 × 2的常数系数进行缩放。

Localization and bounding box estimation

置信图S将每个对象位置的粗略近似值编码为置信分数中的峰值,从而给出精确到特征图分辨率r的位置估计。为了更精确地定位每个目标,我们附加了一个额外的网络输出头,它预测从地平面(x, y0,z)上的网格单元位置到相应地真目标pi中心的相对偏移量∆pos:
我们使用与3.4节中描述的相同的比例因子σ将位置偏移归一化到一个合理的范围内。如果对象的边界框的任何部分与给定的网格单元相交,则将ground truth对象实例i分配给网格位置(x, z)。不与任何地面真值对象相交的单元在训练期间被忽略。除了定位每个对象之外,我们还必须确定每个边界框的大小和方向。因此,我们引入两个进一步的网络输出。第一个是维头,它预测具有维数di = 【wi hi li】的指定地面真值对象i之间的对数尺度偏移量∆dim。平均维数d¯= [w¯ h¯ l]遍历给定类的所有对象。
第二个,方向头,预测物体方向θi关于y轴的正弦和余弦:

请注意,由于我们是在正射影鸟瞰空间中操作,因此我们能够直接预测y轴方向θ,而不像其他作品(例如[23])预测所谓的观察角度α,以考虑透视和相对视点的影响。位置偏移量∆pos,尺寸偏移量∆dim和方向矢量∆ang使用1损失进行训练。

Non-maximum suppression

与其他目标检测算法类似,我们采用非最大抑制(NMS)阶段来获得最终的离散目标预测集。在传统的目标检测设置中,这一步可能是昂贵的,因为它需要O(N2)个边界框重叠计算。这是复合的事实,成对的三维盒子不一定是轴对齐的,这使得重叠的计算比2D的情况下更加困难。幸运的是,使用置信图代替锚盒分类的另一个好处是,我们可以在更传统的图像处理意义上应用NMS,即在二维置信图S上搜索局部最大值。在这里,正射影鸟瞰图再次被证明是无价的:在3D世界中,两个物体不可能占据相同的体积,这意味着置信度图上的峰值是自然分离的。为了减轻预测中噪声的影响,我们首先采用宽度为σNMS的高斯核平滑置信映射。如果S (xi,zi)≥S (xi +m, zi +n)∀m, n∈{-1,0,1}。(10)在产生的峰值位置中,任何置信度S(xi,yi)小于给定阈值t的位置都被消除。这将产生最终的预测对象实例集,其边界框中心pi、维度di和方向θi分别由公式7、8和9中的关系反转给出。

Conclusions

在这项工作中,我们提出了一种新的单眼3D物体检测方法,基于直觉,在鸟瞰域中操作可以减轻图像中许多不理想的属性,这些属性使得难以提供世界的3D配置。我们提出了一种简单的正射影特征转换方法,将基于图像的特征转换为鸟瞰图,并描述了如何利用积分图像有效地实现它。然后将其纳入深度学习管道的一部分,其中我们特别强调了以深度2D卷积网络形式应用于提取的鸟瞰图特征的空间推理的重要性。最后,我们通过实验验证了我们的假设,即在自上而下的空间中推理确实取得了更好的结果,并在KITTI 3D对象基准上展示了最先进的性能。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/75703.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

LINUX 4 tar -zcvf -jcvf -Jcvf -tf -uf

cp -r mv: 1.移动文件到目录 2.文件改名 3.目录改名 s 上面是打包 下面是打包并压缩

linux signal up/down/down_interruptiable\down_uninterruptiable使用

在Linux内核中&#xff0c;down, down_interruptible, down_killable, 和 up 是用于操作信号量&#xff08;semap hores&#xff09;的函数&#xff0c;它们用于进程同步和互斥。以下是对这些函数的简要说明。 1&#xff0c;down(&sem): 这个函数用于获取信号量。如果信号…

使用人工智能大模型DeepSeek,如何进行论文润色和去重?

今天我们学习人工智能&#xff0c;如何协助我们进行论文润色和去重。手把手的学习视频地址请访问https://edu.csdn.net/learn/40402/666422 第一步在腾讯元宝对话框中输入如何协助老师做论文润色&#xff0c;通过提问&#xff0c;我们了解了老师写论文润色的步骤和建议。润色的…

UE5 Simulation Stage

首先将Grid2D创建出来&#xff0c;然后设置值&#xff0c;Grid2D类似于在Niagara系统中的RenderTarget2D&#xff0c;可以进行绘制&#xff0c;那么设置大小为512 * 512 开启Niagara粒子中的Simulation Stage 然后开始编写我们的自定义模块 模块很简单&#xff0c;TS就是Textur…

OpenCV 图形API(6)将一个矩阵(或图像)与一个标量值相加的函数addC()

操作系统&#xff1a;ubuntu22.04 OpenCV版本&#xff1a;OpenCV4.9 IDE:Visual Studio Code 编程语言&#xff1a;C11 算法描述 addC 函数将给定的标量值加到给定矩阵的每个元素上。该功能可以用矩阵表达式替换&#xff1a; dst src1 c \texttt{dst} \texttt{src1} \te…

多GPU训练

写在前面 限于财力不足&#xff0c;本机上只有一个 GPU 可供使用&#xff0c;因此这部分的代码只能够稍作了解&#xff0c;能够使用的 GPU 也只有一个。 多 GPU 的数据并行&#xff1a;有几张卡&#xff0c;对一个小批量数据&#xff0c;有几张卡就分成几块&#xff0c;每个 …

0基础 | 硬件 | 电源系统 一

降压电路LDO 几乎所有LDO都是基于此拓扑结构 图 拓扑结构 LDO属于线性电源&#xff0c;通过控制开关管的导通程度实现稳压&#xff0c;输出纹波小&#xff0c;无开关噪声 线性电源&#xff0c;IoutIin&#xff0c;发热功率P电压差△U*电流I&#xff0c;转换效率Vo/Vi LDO不适…

mysql数据库中getshell的方式总结

mysql数据库中getshell的方式总结 MySQL版本大于5.0&#xff0c;MySQL 5.0版本以上会创建日志文件,我们通过修改日志文件的全局变量,就可以GetSHELL,下面这篇文章主要给大家介绍了关于mysql数据库中getshell的方式,需要的朋友可以参考下 outfile和dumpfile写shell 利用条件 …

基于Python的微博数据采集

摘要 本系统通过逆向工程微博移动端API接口,实现了对热门板块微博内容及用户评论的自动化采集。系统采用Requests+多线程架构,支持递归分页采集和动态请求头模拟,每小时可处理3000+条数据记录。关键技术特征包括:1)基于max_id的评论分页递归算法 2)HTML标签清洗正则表达…

WiFi加密协议

目录 1. 认证(Authentication)‌ ‌1.1 开放系统认证(Open System Authentication)‌ 1.2 共享密钥认证(Shared Key Authentication)‌ ‌1.3 802.1X/EAP认证(企业级认证)‌ ‌2. 关联(Association)‌ ‌3. 加密协议(Security Handshake)‌ ‌整体流程总结‌…

MySQL篇(六)MySQL 分库分表:应对数据增长挑战的有效策略

MySQL篇&#xff08;六&#xff09;MySQL 分库分表&#xff1a;应对数据增长挑战的有效策略 MySQL篇&#xff08;六&#xff09;MySQL 分库分表&#xff1a;应对数据增长挑战的有效策略一、引言二、为什么需要分库分表2.1 性能瓶颈2.2 存储瓶颈2.3 高并发压力 三、分库分表的方…

极限编程(XP)简介及其价值观与最佳实践

目录 一、什么是极限编程&#xff08;XP&#xff09;二、极限编程的核心价值观1. 沟通2. 简单3. 反馈4. 勇气 三、极限编程的12个最佳实践1. 结对编程2. 40小时工作制3. 简单设计4. 代码规范5. 测试驱动开发&#xff08;TDD&#xff09;6. 系统隐喻7. 持续集成8. 重构9. 客户在…

Java进阶-day06:反射、注解与动态代理深度解析

目录 一、反射机制&#xff1a;Java的自我认知能力 1.1 认识反射 1.2 获取Class对象 1.3 获取类的成分 二、注解&#xff1a;Java的元数据机制 2.1 注解概述 2.2 元注解 2.3 注解解析 2.4 注解的实际应用 三、动态代理&#xff1a;灵活的间接访问机制 3.1 为什么需要…

Nacos注册中心AP模式核心源码分析(集群模式)

文章目录 概述一、客户端新注册实例信息在集群间同步二、服务端集群节点信息在集群间同步2.1、DistroMapper2.2、ProtocolManager2.3、ServerListManager2.4、RaftPeerSet 三、客户端实例状态信息在集群间同步四、服务端新节点上线同步集群数据 概述 在Nacos集群模式下&#xf…

vscode和cursor对ubuntu22.04的remote ssh和X-Windows的无密码登录

这里写自定义目录标题 写在前面需求的描述问题的引出 昨天已使能自动登录上午我的改变UBUNTU 22.04关闭密码规则一&#xff1a;修改 /etc/pam.d/common-password 文件二&#xff1a;修改 /etc/security/pwquality.conf 文件方法三&#xff1a;禁用 pam_pwquality.so 模块 vscod…

论文阅读:基于增强通用深度图像水印的混合篡改定位技术 OmniGuard

一、论文信息 论文名称:OmniGuard: Hybrid Manipulation Localization via Augmented Versatile Deep Image Watermarking作者团队:北京大学发表会议:CVPR2025论文链接:https://arxiv.org/pdf/2412.01615二、动机与贡献 动机: 随着生成式 AI 的快速发展,其在图像编辑领…

一周学会Pandas2 Python数据处理与分析-NumPy数组创建

锋哥原创的Pandas2 Python数据处理与分析 视频教程&#xff1a; 2025版 Pandas2 Python数据处理与分析 视频教程(无废话版) 玩命更新中~_哔哩哔哩_bilibili NumPy数组创建最常用的方式是直接创建&#xff0c; numpy 可以直接创建或者将 python的其他元素转为 array 对象。 下…

【全球首发】DeepSeek谷歌版1.1.5 - 免费GPT-4级别AI工具

【全球首发】DeepSeek谷歌版1.1.5 - 免费GPT-4级别AI工具 资源简介 DeepSeek谷歌版1.1.5是目前全球领先的免费AI助手&#xff0c;性能超越国内主流AI产品&#xff0c;提供类似GPT-4的智能体验。 版本信息 最新版本&#xff1a;1.1.5&#xff08;2024最新版&#xff09;应用…

小程序29-事件穿参-mark 自定义数据

小程序进行事件传参的时候&#xff0c;除了使用 data-*属性 传递参数外&#xff0c;还可以 使用 mark 标记传递参数 mark 是一种自定义属性&#xff0c;可以在组件上添加&#xff0c;用于来识别具体触发事件的 target 节点。同时 mark 还可以用于承载一些自定义数据 在组件上使…

高级:分布式系统面试题精讲

一、引言 分布式系统在现代软件开发中占据重要地位&#xff0c;其设计和实现需要考虑多个关键因素。面试官通过相关问题&#xff0c;考察候选人对分布式系统核心概念的理解、实际应用能力以及在复杂场景下的问题解决能力。本文将深入分析分布式系统的CAP定理、一致性协议、分布…