计算机视觉基础(13)——深度估计

前言

本节是计算机视觉的最后一节,我们将学习深度估计。从深度的概念和度量入手,依次学习单目深度估计和双目/多目深度估计,需要知道深度估计的经典方法,掌握深度估计的评价标准,注意结合对极几何进行分析和思考。

一、深度的概念和度量方式

1.1  深度的概念

  • 深度指场景中物体表面到相机的距离,即图中𝑷 (𝑐)点的𝑍 (𝑐)坐标
  • 采用深度图(Depth Map)表征,图中每点的取值代表对应像素的深度值

1.2  深度的度量方式与设备

1.2.1  结构光

  • 结构光:将特殊结构图案(如离散光斑、条纹、编码结构光等)投影到空间物体表面上,用另一个相机观察在三维物理表面成像的畸变情况,进行图像匹配比较并计算出深度
  • 属于主动光探测方案
  • 技术成熟、便携、低延时,适用于较近距离

1.2.2  ToF

  • Time-of-Flight (ToF)向目标连续发送光脉冲,用传感器接收从物体返回的光,通过探测光脉冲的往返飞行时间测距
  • 属于主动光探测方案
  • 适用于较远距离,传感器复杂、成本高、深度图稀疏

1.2.3  双目视觉

  • 双目视觉技术:利用两个标定好的RGB摄像头采集图像,通过匹配对应点,获取的二维图像像素点的深度
  • 属于被动光探测方案
  • 精度依赖于双目匹配算法,易受到光照变化等因素影响,适用于较近距离
  • 但是,遇到重复纹理、⽆边缘特征时,识别的效果就会很差

二、计算机视觉中的深度估计问题

深度估计:设计计算机视觉算法,根据输入图像,估计出对应的深度图。

根据输入图像的数目分为单目深度估计(Monocular)、双目深度估计(Binocular)、多视角立体视觉 (Multi-View Stereo, MVS)

与基于传感器硬件的解决方案相比,软件算法的深度估计方案成本较低

三、深度估计的应用

3.1  自动驾驶、机器人导航

3.2  3D重构(三维建模、三维地图、3D打印)

3.3  增强现实

3.4  单目3D拍照

3.5  浅景深渲染

3.6  RGB-D 语义分割/目标检测/视觉跟踪

将深度作为额外的辅助信息应用在传统视觉任务中RGB-D:RGB-D 语义分割/目标检测/视觉跟踪

四、单目深度估计

4.1  单目深度估计的概念

目标:利用能够反映深度的线索/提示信息(Cues),从单幅图像中预测出对应的深度图

对弱纹理等挑战区域具有更强的鲁棒性

单目深度估计本身具有较强挑战性

4.2  单目深度线索

4.2.1  近大远小

近大远小:对常见物体的尺寸有大致的估计,根据其在图像中的大小,判断相对位置/距离

4.2.2  纹理的丰富程度

纹理丰富程度:近距离的区域更为清晰,纹理也较为丰富。

4.2.3  遮挡关系

遮挡关系:被遮挡的背景物体距离较远,前景距离较近

4.2.4  平行线与消失点

平行线与消失点:在远离相机的过程中,3D空间的平行线在2D图像上的投影逐渐接近,直至相较于消失点

4.2.5  光影/明暗/纹理

通过光影、明暗与纹理变化,可以轻易推断出物体的三维形状

4.3  单目深度估计的主流方法

  • 单目深度线索较为繁杂多样,手工设计的方法很难全面涵盖上述所有线索
  • 卷积神经网络通过端到端数据驱动的方式,可以很好地学习并集成上述线索,并且适合处理二维图像数据,因而成为单目深度估计的主流方法

4.3.1  基于卷积网络

4.3.2  基于全卷积网络

4.3.3  基于Transformer

4.3.4  基于多任务

4.3.5  基于弱监督

  • 与分割、检测等数据不同,深度真值不适合手工标注,主要依赖于深度传感器采集
  • 由于深度传感器应用场景受限,场景多样化的深度训练数据不易获取,导致模型的场景泛化性能较差

为解决上述问题,Chen et al. 2016年提出一种人工标注稀疏深度真值的方法,即从每一张图像中随机选两点,人工标出两点对应的前后顺序

通过上述标注方法构建了Depth-in-the-Wild (DIW)数据集

DIW数据集规模大(49.6万张图片),场景多样化,真值标注稀疏且是相对的 (每张只包含两个点的相对前后顺序)

由于每张图像仅包含一个深度真值,因而上述网络训练过程属于弱监督学习

由于DIW数据集场景多样化,即使采用弱监督学习,在DIW上训练的模型相较于其他数据集训练的模型具有更强的泛化性能

4.4  相对深度估计

4.5  常见的单目深度估计数据集

4.6  常见的深度估计评价指标(重点)

五、双目/多目立体匹配

5.1  双目/多目深度估计线索

5.2  对极几何回顾

5.3  特殊矫正后的情况

通过矫正两个相机的朝向与位置,使极线为水平线

同一点在两幅图中的视差 (Disparity) 𝑑 = 𝑥1 + 𝑥2 与其深度𝑍成反比

5.4  未经矫正的情况

5.5  基于深度学习的MVS:MVSNet

总结

在本节中,我们学习了深度估计的相关知识。读者需要重点掌握深度的概念和度量方式,单目深度估计和双目深度估计的主流方法,其中,深度估计的评价指标和对极几何是重点

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/577916.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【LeetCode刷题笔记】动态规划(四)

背包问题 0-1 背包问题 有一个背包,它的容量为 C现在有 n 种不同的物品,他们的编号分别是 0...n-1。每一种物品只有一个。在这 n 种物品中,第 i 个物品的重量是 w[i],它的价值为 v[i]问题是:可以向这个背包中放哪些物品,使得在不超过背包容量的基础上,背包中物品的总价…

【SpringCloud笔记】(10)消息总线之Bus

Bus 前言 戳我了解Config 学习Config中我们遇到了一个问题: 当我们修改了GitHub上配置文件内容,微服务需要配置动态刷新并且需要手动向客户端发送post请求刷新微服务之后才能获取到GitHub修改过后的内容 假如有多个微服务客户端3355/3366/3377…等等…

Android 手机对于Arduino蓝牙控制解决方案

1、Android系统概述 ​ Android 系统是 Google 公司基于 Linux 内核开发的移动端操作系统,适用于智能手机智能手表平板电脑等设备,最新的版本为 7.1。Android系统具有免费开源的优势,任何企业与个人都可以查阅公开的 API 文档,并在自己开发的应用中通过调…

xlua源码分析(四) lua访问C#的值类型

xlua源码分析(四) lua访问C#的值类型 上一节我们主要探讨了C#是如何使用interface和delegate访问lua层的table和function的,本节我们跟着Examples 05_NoGc,来看看xlua是如何实现lua层无gc访问C#的值类型的。 首先例子中用到的lua…

List那些坑

很多文章都介绍过这些坑,本文做个记录,并提供解决方案。 1.Arrays.asList的坑 1.1现象 情况1:通过Arrays.asList方法生成的List数据不支持添加操作 使用Arrays.asList方法生成的List数据,不能对其进行删除或者添加操作。代码示例…

【MySQL】数据库之存储引擎

目录 一、什么是存储引擎 MySQL 整个查询执行过程,即MySQL的工作原理? 二、MyISAM 与 InnoDB 的区别? 三、如何查看当前表的存储引擎? 1.查看当前的存储引擎 2.查看数据库支持哪些存储引擎 四、如何设置存储引擎?…

如何通过内网穿透实现远程访问本地Linux SVN服务

文章目录 前言1. Ubuntu安装SVN服务2. 修改配置文件2.1 修改svnserve.conf文件2.2 修改passwd文件2.3 修改authz文件 3. 启动svn服务4. 内网穿透4.1 安装cpolar内网穿透4.2 创建隧道映射本地端口 5. 测试公网访问6. 配置固定公网TCP端口地址6.1 保留一个固定的公网TCP端口地址6…

论文阅读——X-Decoder

Generalized Decoding for Pixel, Image, and Language Towards a Generalized Multi-Modal Foundation Model 1、概述 X-Decoder没有为视觉和VL任务开发统一的接口,而是建立了一个通用的解码范式,该范式可以通过采用共同的(例如语义&#…

IDEA Maven Helper插件 解决jar冲突

Jar包冲突报错 程序抛出java.lang.ClassNotFoundException异常; 程序抛出java.lang.NoSuchMethodError异常; 程序抛出java.lang.NoClassDefFoundError异常; 程序抛出java.lang.LinkageError异常等;Maven Jar包管理机制 在Maven项…

微信小程序使用canvas制作海报并保存到本地相册(超级详细)

案例图 分析案例图都有哪些元素 1.渐变背景 2.圆形头像 3.文字 4.文字超出换行 5.图片居中 6.文字居中 7.单位适配 8.弹窗保存图片。因为一个个绘制图形太麻烦所以这里都采用了方法封装。 canvas api介绍 最后有全部代码,复制即用。 data数据 data() {return {myO…

【Linux--信号】

目录 一、信号的概念1.1查看系统的信号1.2信号的处理方式 二、信号的产生方式2.1通过终端按键2.2kill命令2.3系统调用2.4软条件产生信号2.5硬件异常产生信号 三、信号的保存3.1概念的认识3.2sigset_t3.3信号集操作函数3.4sigprocmask && sigpending3.4.1sigprocmask3.4…

【工具使用-A2B】使用A2B配置16通道车载音频系统

一,简介 工作中需要使用A2B搭建车载16通道演示系统,故本文记录一下,16通道车载音频系统中A2B工程相关配置,供参考。 使用FPGA输出双TDM8的信号给到A2B Master节点,音频数据经过A2B双绞线,传输到A2B Slave…

【开源】基于JAVA语言的企业项目合同信息系统

目录 一、摘要1.1 项目介绍1.2 项目录屏 二、功能模块2.1 数据中心模块2.2 合同审批模块2.3 合同签订模块2.4 合同预警模块2.5 数据可视化模块 三、系统设计3.1 用例设计3.2 数据库设计3.2.1 合同审批表3.2.2 合同签订表3.2.3 合同预警表 四、系统展示五、核心代码5.1 查询合同…

大师计划1.0 - log2 CRTO笔记

CRTOⅠ笔记 log2 这个笔记是我在2023年11月23日-12月22日中,学习CRTO所做的一些笔记。 事实上TryHackMe的路径和htb学院包含了许多CRTO的知识并且甚至还超出了CRTO(CS除外),所以很多东西在THM和htb学院学过,这次CRTO等…

【NI-RIO入门】如何格式化实时控制器

1.当使用CompactRIO时有时会出现硬盘已满或出现IO错误,如下如图 2.出现上下位机软件版本不匹配 3.rt组件损坏 4.实时控制器意外进入安全模式 5.设备非正常断电 6.访问被拒绝:目标被另一个进程(例如 VI 或 NI 分布式系统管理器)锁定…

中间继电器的文字符号和图形符号

中间继电器的文字符号和图形符号 中间继电器主要用途是当其他继电器触头数量或容量不够时,可借助中间继电器扩充触头数目或增大触头容量,起中间转换作用。将多个中间继电器相组合,还能构成各种逻辑运算电器或计数电器。 中间继电器文字符号…

Kafka、RocketMQ、RabbitMQ消息丢失可能存在的地方,以及解决方案

这里主要对比:Kafka、RocketMQ、RabbitMQ 介绍一下消息生产、存储、消费三者的架构形式。 消息丢失可能存在的场景: 情况一: 生产者发送给MQ的过程消息丢失 在写消息的过程中因为网络的原因,还没到mq消息就丢失了;或…

【AI故事】灵感的源泉还是知识的盗窃?

灵感的源泉还是知识的盗窃? ——ChatGPT Robot在一个漆黑的夜晚,年轻的作家艾米丽坐在书桌前,手里紧握着一支笔,思绪万千。她一直在寻找创作的灵感,但却毫无头绪。 突然,她听到了一声巨响,仿佛…

C# 初识System.IO.Pipelines

写在前面 在进一步了解Socket粘包分包的过程中,了解到了.NET 中的 System.IO.Pipelines,可以更优雅高效的解决这个问题;先跟随官方的示例做个初步的认识。 System.IO.Pipelines 是一个库,旨在使在 .NET 中执行高性能 I/O 更加容…

DeskPins | 将窗口钉在面前

前言 DeskPins | 将窗口钉在面前 有的人,一边看番,一边却在刷题; 有的人,一边网课,一边却在摸鱼。 有的人,一边某xuexi通上考试,一边。。 众所周知,窗口置顶是很常见的一个需求&…