3D 目标检测:从萌芽到前沿的技术演进之路

亲爱的小伙伴们😘,在求知的漫漫旅途中,若你对深度学习的奥秘、JAVA 、PYTHON与SAP 的奇妙世界,亦或是读研论文的撰写攻略有所探寻🧐,那不妨给我一个小小的关注吧🥰。我会精心筹备,在未来的日子里不定期地为大家呈上这些领域的知识宝藏与实用经验分享🎁。每一个点赞👍,都如同春日里的一缕阳光,给予我满满的动力与温暖,让我们在学习成长的道路上相伴而行,共同进步✨。期待你的关注与点赞哟🤗!

早期探索阶段

  • 在 3D 目标检测的早期,研究主要集中在基于手工特征和传统机器学习方法上。研究人员尝试利用物体的几何形状、颜色、纹理等特征,结合支持向量机(SVM)等分类器来识别和定位 3D 物体。然而,这些方法在复杂场景下的性能有限,难以处理大规模的数据和多样化的物体姿态。

基于点云的方法兴起

  • VoxelNet :2017 年提出的 VoxelNet 是 3D 目标检测领域的一个重要里程碑。它将点云数据划分为体素,并使用 3D 卷积神经网络(CNN)来学习体素特征,从而实现 3D 目标检测.
    • 论文:VoxelNet: End-to-End Learning for Point Cloud Based 3D Object Detection
    • 出处:CVPR 2018
    • 原理改进:以往的方法多是将点云转换为其他形式再进行处理,而 VoxelNet 直接对体素化的点云进行 3D 卷积操作,自动学习点云的特征表示,无需人工设计特征,提高了检测的准确性和鲁棒性。其具体流程包括提素分区、分组、随机抽样、堆叠体素特征编码等步骤,最后通过区域提议网络生成检测框.

多模态融合方法的发展

  • MV3D :2016 年的 MV3D 多视角 3D 网络,将激光雷达点云和 RGB 图像作为输入,预测定向 3D 边界框1.
    • 论文:Multi-View 3D Object Detection Network for Autonomous Driving
    • 出处:CVPR 2017
    • 原理改进:此前的方法多单独依赖于点云或图像数据,MV3D 充分利用了激光雷达和相机的互补信息,通过多视角特征融合,使得网络能够更好地理解场景和物体,尤其是对于远处和小目标的检测效果有了明显提升。它通过两个子网络分别生成 3D 对象提议和进行多视角特征融合,并设计了深度融合方案,结合来自多个视角的区域特征来提高检测性能。

基于深度学习的进一步优化

  • PointNet/PointNet++ :PointNet 及其升级版 PointNet++ 在 2017 年左右出现,它们直接处理点云数据,通过一系列的点云采样、分组和特征学习操作,有效地捕捉点云的局部和全局特征1.
    • 论文:PointNet: Deep Learning on Point Sets for 3D Classification and Segmentation、PointNet++: Deep Hierarchical Feature Learning on Point Sets in a Metric Space
    • 出处:CVPR 2017、NIPS 2017
    • 原理改进:与之前的方法相比,PointNet 系列能够更好地处理点云的无序性和置换不变性,直接在原始点云上进行操作,避免了体素化等预处理过程中可能导致的信息丢失,从而更准确地提取点云的特征,提高了对复杂形状物体的检测精度。PointNet++ 通过构建点的分层分组,逐步抽象更大的局部区域,学习深度点集特征,进一步提升了模型的性能.

多传感器融合与序列信息利用

  • PointPainting :2019 年提出的 PointPainting 方法,将激光雷达点投影到仅图像语义分割网络的输出中,并将类别评分追加到每个点上,然后将追加后的点云馈送到任何仅激光雷达的方法中,实现了点云和图像信息的有效融合,提升了检测性能 。
    • 论文:PointPainting: Sequential Fusion for 3D Object Detection
    • 出处:CVPR 2020
    • 原理改进:该方法巧妙地将图像的语义信息融入到点云数据中,弥补了点云在语义理解上的不足,使得点云数据能够更好地识别物体的类别和位置,增强了检测的准确性和可靠性。
  • MSF :2023 年的 MSF 方法利用目标运动的连续性来挖掘当前帧中用于目标检测的有用序列上下文。
    • 论文:MSF: An Efficient 3D Object Detection Network based on Point Cloud Sequence Fusion
    • 出处:公众号【自动驾驶之心】
    • 原理改进:传统的多帧检测方法通常遵循 “检测和融合” 框架,存在冗余计算和对先前帧结果的过度依赖问题。MSF 方法则只在当前帧生成提议并传播到先前帧挖掘特征,减少了计算量和对前序帧的依赖,同时双向特征聚合模块加强了跨帧提议之间的信息交换,提高了边界框预测的准确性 。

基于 Transformer 的方法探索

  • 近年来,Transformer 架构在自然语言处理领域取得了巨大成功后,也被引入到 3D 目标检测中。一些方法利用 Transformer 的自注意力机制来学习点云或多模态数据中的长程依赖关系,从而更好地捕捉物体之间的上下文信息,进一步提高了检测性能 。
    • 论文:TransFusion: Robust LiDAR-Camera Fusion for 3D Object Detection with Transformers等
    • 出处:相关的计算机视觉会议和期刊
    • 原理改进:Transformer 的自注意力机制能够自适应地关注输入数据中的不同部分,对于处理 3D 目标检测中的复杂场景和多模态数据具有天然的优势。它可以更好地建模物体之间的关系,以及不同模态数据之间的相互作用,从而提升检测的精度和鲁棒性,尤其是在处理遮挡、重叠等复杂情况时表现出色 。

2024 最新技术

  • Shift-SSD :2024 年,港科大提出了一种新的基于点的 3D 探测器模型 Shift-SSD,用于自动驾驶中的精确 3D 物体检测.
    • 论文:Cross-Cluster Shifting for Efficient and Effective 3D Object Detection in Autonomous Driving
    • 出处:ICRA 2024
    • 原理改进:传统的基于点的 3D 目标检测器通常采用依赖于点的渐进式下采样的架构,会损害关键非局部信息的保存。Shift-SSD 引入了跨集群移位操作,通过移位相邻簇的部分通道来增强传统设计,从而实现与非局部区域的更丰富的交互,扩大簇的感受野,在检测精度和运行效率方面取得了最新性能。其整体架构由用于聚类点特征提取的主干网络和用于产生检测框的框预测网络组成,主干网络中的移位集抽象模块包括簇点选择、球分组、集合特征提取和跨簇移位层等操作.
  • MV ACon :2024 年提出的多视角关注上下文化(MV ACon)方法,用于改进基于查询的多视角三维(MV3D)目标检测中二维到三维特征提取.
    • 论文:Multi-View Attentive Contextualization for Multi-View 3D Object Detection
    • 出处:CVPR 2024
    • 原理改进:该方法采用一种具有表征密集性但计算稀疏性的关注特征上下文化方案,解决了现有方法在高分辨率 2D 特征利用和 3D 查询到多尺度 2D 特征的稀疏接地方面的不足,通过引入全局基于聚类的上下文有效地对 MV3D 目标检测的密集场景级上下文进行编码,在实验中表现出一致的检测性能提升,尤其是在增强位置、方向和速度预测方面表现出色.

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/63326.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Gitee配置以及如何将本地项目提交到远程仓库

文章目录 准备远程仓库配置注册新建仓库 配置git 生成ssh,输入以下命令,然后连敲三次回车键配置公钥本地代码上传 准备 1.本地下载git 2.注册远程仓库账号 远程仓库配置 注册 官网:https://gitee.com 完成注册 新建仓库 头像->设置-…

基于Java和Vue开发的漫画阅读软件漫画阅读小程序漫画APP

前景分析 受众广泛:漫画的受众群体广泛,不仅限于青少年,还涵盖了成年人等多个年龄层和社会阶层。漫画文化在全球范围内的影响力不断扩大,未来漫画软件创业可以考虑全球市场的拓展。 市场需求大:数字化阅读趋势下&…

2024.12.2——[极客大挑战 2019]Secret File 1

知识点:抓包 代码审计 filter伪协议 一、解题步骤 step 1 查看源代码中的信息 查看源代码发现一个php文件:[./Archive_room.php](http://72df1f22-85bf-47bb-b23a-efcaf88701d4.node5.buuoj.cn:81/Archive_room.php) 点进去后发现没什么用&#xff0c…

Pillow:强大的Python图像处理库

目录 一、引言 二、Pillow 库的安装 三、Pillow 库的基本概念 四、图像的读取和保存 五、图像的基本属性 六、图像的裁剪、缩放和旋转 七、图像的颜色调整 八、图像的滤镜效果 九、图像的合成和叠加 十、图像的绘制 十一、示例程序:制作图片水印 十二、…

FFmpeg 4.3 音视频-多路H265监控录放C++开发十九,ffmpeg复用

封装就是将 一个h264,和一个aac文件重新封装成一个mp4文件。 这里我们的h264 和 aac都是来源于另一个mp4文件,也就是说,我们会将 in.mp4文件解封装成一路videoavstream 和 一路 audioavstream,然后 将这两路的 avstream 合并成一…

距离与AoA辅助的三维测距算法,适用于自适应基站数量的情况。订阅专栏后可直接查看完整源代码

本MATLAB 代码实现了一个基于距离与到达角(AoA)的三维测距系统,主要用于在动态环境中估计目标物体的位置。提供本算法与仅侧角(AoA)的定位误差对比 文章目录 代码运行结果源代码代码功能概述主要步骤分析初始化部分AOA定位绘图部分输出部分代码的应用和意义总结代码运行结…

[241206] X-CMD 发布 v0.4.15:env 升级,mirror 支持华为/腾讯 npm 镜像,pb-wayland 剪贴板

目录 X-CMD 发布 v0.4.15📃Changelog📦 env|pkg🪞 mirror📑 pb🎨 theme|starship|ohmyposh🤖 chat📝 man✅ 升级指南 X-CMD 发布 v0.4.15 📃Changelog 📦 env|pkg 新增…

Python办公—DataMatrix二维条码制作

目录 专栏导读1、库的介绍2、库的安装3、核心代码4、完整代码总结专栏导读 🌸 欢迎来到Python办公自动化专栏—Python处理办公问题,解放您的双手 🏳️‍🌈 博客主页:请点击——> 一晌小贪欢的博客主页求关注 👍 该系列文章专栏:请点击——>Python办公自动化专…

生成表格pdf格式

1. 添加依赖 <dependency><groupId>com.itextpdf</groupId><artifactId>kernel</artifactId><version>7.2.5</version></dependency><dependency><groupId>com.itextpdf</groupId><artifactId>layout…

Webpack Tree Shaking 技术原理及应用实战,优化代码,精简产物

前言 在前端开发中&#xff0c;优化代码体积和提升应用性能是至关重要的课题。Webpack 提供了多种优化手段来帮助开发者实现这一目标&#xff0c;Tree Shaking 就是其中一种非常重要的优化技术&#xff0c;它通过在编译阶段移除未被使用的代码模块&#xff0c;从而显著减小最终…

『RabbitMQ』 windows下 安装RabbitMQ 并在Python中使用测试

目录 1. 安装ERLANG2. 安装RabbitMQ3. 新建用户Python的测试代码 生产者和消费者总结欢迎关注 『RabbitMQ』 专栏,持续更新中 欢迎关注 『RabbitMQ』 专栏,持续更新中 1. 安装ERLANG 下载之前先看兼容性,这里我打算下载26.1版本的Erlang以适配RabbitMQ cloud.emqx.com/cons…

SwiftUI 列表(或 Form)子项中的 Picker 引起导航无法跳转的原因及解决

概述 在 SwiftUI 的界面布局中&#xff0c;列表&#xff08;List&#xff09;和 Form 是我们秃头码农们司空见惯的选择。不过大家是否知道&#xff1a;如果将 Picker 之类的视图嵌入到列表或 Form 的子项中会导致导航操作无法被触发。 从上图可以看到&#xff1a;当在 List 的…

Ubuntu Linux 文件、目录权限问题

本文为Ubuntu Linux操作系统- 第五弹 此文是在上期文件目录的内容操作基础上接着讲权限问题 上期回顾&#xff1a;Ubuntu Linux 目录和文件的内容操作 文件访问者身份与文件访问权限 Linux文件结构 所有者&#xff08;属主&#xff09;所属组&#xff08;属组&#xff09;其他…

SIP系列五:HTTP(SIP)鉴权

我的音视频/流媒体开源项目(github) SIP系列目录 目录 一、基本认证(basic) 二、摘要认证(digest) 1、摘要认证(digest) RFC 2069​ 2、摘要认证(digest) RFC 2617​ 2.1、未定义qop字段或值为"(空) 2.2、qop值为"auth" 2.3、qop值为"auth-int&quo…

解决kali xterm终端中英文字符过宽、中文乱码问题

编辑并保存以下内容 root用户 nano ~/.Xresources XTerm*faceName: DejaVu Sans Mono XTerm*faceName2: Noto Sans CJK SC XTerm*background: #000000没有终端背景变白的问题可以不加 XTerm*background: #000000 重新加载配置生效 xrdb ~/.Xresources 自动加载 .Xresource…

2020年国赛高教杯数学建模E题校园供水系统智能管理解题全过程文档及程序

2020年国赛高教杯数学建模 E题 校园供水系统智能管理 原题再现 校园供水系统是校园公用设施的重要组成部分&#xff0c;学校为了保障校园供水系统的正常运行需要投入大量的人力、物力和财力。随着科学技术的发展&#xff0c;校园内已经普遍使用了智能水表&#xff0c;从而可以…

最新版Chrome谷歌加载ActiveX控件之金格iWebOffice2015控件

allWebPlugin简介 allWebPlugin中间件是一款为用户提供安全、可靠、便捷的浏览器插件服务的中间件产品&#xff0c;致力于将浏览器插件重新应用到所有浏览器。它将现有ActiveX控件直接嵌入浏览器&#xff0c;实现插件加载、界面显示、接口调用、事件回调等。支持Chrome、Firefo…

【Flink-scala】DataStream编程模型之水位线

DataStream API编程模型 1.【Flink-Scala】DataStream编程模型之 数据源、数据转换、数据输出 2.【Flink-scala】DataStream编程模型之 窗口的划分-时间概念-窗口计算程序 3.【Flink-scala】DataStream编程模型之 窗口计算-触发器-驱逐器 文章目录 DataStream API编程模型前言…

VoCo-LLaMA: Towards Vision Compression with Large Language Models

视觉语言模型在各种多模态任务上取得了显著的成功&#xff0c;但经常受到有限上下文窗口和处理高分辨率图像输入和视频的高计算成本的瓶颈。视觉压缩可以通过减少视觉令牌数量避免该问题。先前方法使用额外模块压缩视觉令牌并强制LLM理解压缩的令牌。然而&#xff0c;LLM对视觉…

iOS平台接入Facebook登录

1、FB开发者后台注册账户 2、完善App信息 3、git clone库文件代码接入 4、印尼手机卡开热点调试 备注&#xff1a; 可能遇到的问题&#xff1a; 1、Cocos2dx新建的项目要更改xcode的git设置&#xff0c;不然卡在clone&#xff0c;无法在线获取FBSDK 2、动态库链接 需要在…