计算机视觉基础（13）——深度估计

计算机视觉基础（13）——深度估计

news/2025/7/6 8:09:27/文章来源:https://blog.csdn.net/weixin_65688914/article/details/135196638

前言

本节是计算机视觉的最后一节，我们将学习深度估计。从深度的概念和度量入手，依次学习单目深度估计和双目/多目深度估计，需要知道深度估计的经典方法，掌握深度估计的评价标准，注意结合对极几何进行分析和思考。

一、深度的概念和度量方式

1.1 深度的概念

深度指场景中物体表面到相机的距离，即图中𝑷 (𝑐)点的𝑍 (𝑐)坐标
采用深度图(Depth Map)表征，图中每点的取值代表对应像素的深度值

1.2 深度的度量方式与设备

1.2.1 结构光

结构光：将特殊结构图案（如离散光斑、条纹、编码结构光等）投影到空间物体表面上，用另一个相机观察在三维物理表面成像的畸变情况，进行图像匹配比较并计算出深度
属于主动光探测方案
技术成熟、便携、低延时，适用于较近距离

1.2.2 ToF

Time-of-Flight (ToF)：向目标连续发送光脉冲，用传感器接收从物体返回的光，通过探测光脉冲的往返飞行时间测距
属于主动光探测方案
适用于较远距离，传感器复杂、成本高、深度图稀疏

1.2.3 双目视觉

双目视觉技术:利用两个标定好的RGB摄像头采集图像，通过匹配对应点，获取的二维图像像素点的深度
属于被动光探测方案
精度依赖于双目匹配算法，易受到光照变化等因素影响，适用于较近距离
但是，遇到重复纹理、⽆边缘特征时，识别的效果就会很差

二、计算机视觉中的深度估计问题

深度估计：设计计算机视觉算法，根据输入图像，估计出对应的深度图。

根据输入图像的数目分为单目深度估计(Monocular)、双目深度估计(Binocular)、多视角立体视觉 (Multi-View Stereo, MVS)。

与基于传感器硬件的解决方案相比，软件算法的深度估计方案成本较低

三、深度估计的应用

3.1 自动驾驶、机器人导航

3.2 3D重构(三维建模、三维地图、3D打印)

3.3 增强现实

3.4 单目3D拍照

3.5 浅景深渲染

3.6 RGB-D 语义分割/目标检测/视觉跟踪

将深度作为额外的辅助信息应用在传统视觉任务中RGB-D：RGB-D 语义分割/目标检测/视觉跟踪

四、单目深度估计

4.1 单目深度估计的概念

• 目标：利用能够反映深度的线索/提示信息(Cues)，从单幅图像中预测出对应的深度图

• 对弱纹理等挑战区域具有更强的鲁棒性

• 单目深度估计本身具有较强挑战性

4.2 单目深度线索

4.2.1 近大远小

近大远小：对常见物体的尺寸有大致的估计，根据其在图像中的大小，判断相对位置/距离

4.2.2 纹理的丰富程度

纹理丰富程度：近距离的区域更为清晰，纹理也较为丰富。

4.2.3 遮挡关系

遮挡关系：被遮挡的背景物体距离较远，前景距离较近

4.2.4 平行线与消失点

平行线与消失点：在远离相机的过程中，3D空间的平行线在2D图像上的投影逐渐接近，直至相较于消失点

4.2.5 光影/明暗/纹理

通过光影、明暗与纹理变化，可以轻易推断出物体的三维形状

4.3 单目深度估计的主流方法

单目深度线索较为繁杂多样，手工设计的方法很难全面涵盖上述所有线索
卷积神经网络通过端到端数据驱动的方式，可以很好地学习并集成上述线索，并且适合处理二维图像数据，因而成为单目深度估计的主流方法

4.3.1 基于卷积网络

4.3.2 基于全卷积网络

4.3.3 基于Transformer

4.3.4 基于多任务

4.3.5 基于弱监督

与分割、检测等数据不同，深度真值不适合手工标注，主要依赖于深度传感器采集
由于深度传感器应用场景受限，场景多样化的深度训练数据不易获取，导致模型的场景泛化性能较差

• 为解决上述问题，Chen et al. 于2016年提出一种人工标注稀疏深度真值的方法，即从每一张图像中随机选两点，人工标出两点对应的前后顺序

• 通过上述标注方法构建了Depth-in-the-Wild (DIW)数据集

• DIW数据集规模大(49.6万张图片)，场景多样化，真值标注稀疏且是相对的 (每张只包含两个点的相对前后顺序)

• 由于每张图像仅包含一个深度真值，因而上述网络训练过程属于弱监督学习

• 由于DIW数据集场景多样化，即使采用弱监督学习，在DIW上训练的模型相较于其他数据集训练的模型具有更强的泛化性能

4.4 相对深度估计

4.5 常见的单目深度估计数据集

4.6 常见的深度估计评价指标（重点）

五、双目/多目立体匹配

5.1 双目/多目深度估计线索

5.2 对极几何回顾

5.3 特殊矫正后的情况

• 通过矫正两个相机的朝向与位置，使极线为水平线

• 同一点在两幅图中的视差 (Disparity) 𝑑 = 𝑥1 + 𝑥2 与其深度𝑍成反比

5.4 未经矫正的情况

5.5 基于深度学习的MVS：MVSNet

总结

在本节中，我们学习了深度估计的相关知识。读者需要重点掌握深度的概念和度量方式，单目深度估计和双目深度估计的主流方法，其中，深度估计的评价指标和对极几何是重点。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/news/577916.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

【LeetCode刷题笔记】动态规划（四）

【LeetCode刷题笔记】动态规划（四）

背包问题 0-1 背包问题有一个背包，它的容量为 C现在有 n 种不同的物品，他们的编号分别是 0...n-1。每一种物品只有一个。在这 n 种物品中，第 i 个物品的重量是 w[i]，它的价值为 v[i]问题是：可以向这个背包中放哪些物品，使得在不超过背包容量的基础上，背包中物品的总价…

阅读更多...

【华为OD题库-110】反转每对括号间的子串-java

【华为OD题库-110】反转每对括号间的子串-java

题目给出一个字符串s(仅含有小写英文字母和括号)。请你按照从括号内到外的顺序，逐层反转每对匹配括号中的字符串，并返回最终的结果。注意，您的结果中不应包含任何括号。示例1: 输入: s “(abcd)” 输出: “dcba” 示例2: 输入: s “(u(l…

阅读更多...

MongoDB视图的修改与删除

MongoDB视图的修改与删除

目录修改视图删除视图视图，为mongodb的操作和数据安全上提供了便利。但伴随着业务逻辑的发展或数据库维护人员操作当中产生的错误，视图难免需要维护修改。例如增加字段，修改视图中的计算逻辑等。修改视图查询mongodb的官方文档&…

阅读更多...

Linux的基本命令

Linux的基本命令

文章目录 grep的基本查询grep的高亮查询 grep的基本查询 grep命令可以用于在文件中查找指定内容，并将包含该内容的行打印出来。以下是几种不同的实现方法： 使用基本语法格式： （1）grep “要查找的内容” 文件名例如…

阅读更多...

【SpringCloud笔记】（10）消息总线之Bus

【SpringCloud笔记】（10）消息总线之Bus

Bus 前言戳我了解Config 学习Config中我们遇到了一个问题： 当我们修改了GitHub上配置文件内容，微服务需要配置动态刷新并且需要手动向客户端发送post请求刷新微服务之后才能获取到GitHub修改过后的内容假如有多个微服务客户端3355/3366/3377…等等…

阅读更多...

Android 手机对于Arduino蓝牙控制解决方案

Android 手机对于Arduino蓝牙控制解决方案

1、Android系统概述 Android 系统是 Google 公司基于 Linux 内核开发的移动端操作系统,适用于智能手机智能手表平板电脑等设备，最新的版本为 7.1。Android系统具有免费开源的优势,任何企业与个人都可以查阅公开的 API 文档，并在自己开发的应用中通过调…

阅读更多...

xlua源码分析（四） lua访问C#的值类型

xlua源码分析（四） lua访问C#的值类型

xlua源码分析（四） lua访问C#的值类型上一节我们主要探讨了C#是如何使用interface和delegate访问lua层的table和function的，本节我们跟着Examples 05_NoGc，来看看xlua是如何实现lua层无gc访问C#的值类型的。首先例子中用到的lua…

阅读更多...

使用OpenSSL生成自签名SSL/TLS证书和私钥

使用OpenSSL生成自签名SSL/TLS证书和私钥

使用OpenSSL生成自签名SSL/TLS证书和私钥前提： 系统安装了OpenSSL； 系统：windows、linux都可； 1 生成私钥创建一个名为 server.key 的私钥文件，并使用 RSA 算法生成一个 2048 位的密钥。 openssl genrsa -out s…

阅读更多...

敢问路在何方，路在脚下

敢问路在何方，路在脚下

运维工程师的出路到底在哪里？ 他是谁运维工程师（Operations）负责维护并确保整个服务的高可用性，同时不断优化系统架构提升部署效率、优化资源利用率提高整体的ROI。运维工程师面对的最大挑战是大规模集群的管理问题&#xff0c…

阅读更多...

List那些坑

List那些坑

很多文章都介绍过这些坑，本文做个记录，并提供解决方案。 1.Arrays.asList的坑 1.1现象情况1：通过Arrays.asList方法生成的List数据不支持添加操作使用Arrays.asList方法生成的List数据，不能对其进行删除或者添加操作。代码示例…

阅读更多...

学Java的第四天

学Java的第四天

一、switch语句 switch (表达式) { case 1: 语句体1; break; case 2: 语句体2; break; ... default: 语句体n1; break; } 首先计算表达式的值，然后和case 比较，有对应的值就执行对应的语句，遇到 break 就结束。最后如果所有的cas…

阅读更多...

【MySQL】数据库之存储引擎

【MySQL】数据库之存储引擎

目录一、什么是存储引擎 MySQL 整个查询执行过程，即MySQL的工作原理？ 二、MyISAM 与 InnoDB 的区别？ 三、如何查看当前表的存储引擎？ 1.查看当前的存储引擎 2.查看数据库支持哪些存储引擎四、如何设置存储引擎？…

阅读更多...

如何通过内网穿透实现远程访问本地Linux SVN服务

如何通过内网穿透实现远程访问本地Linux SVN服务

文章目录前言1. Ubuntu安装SVN服务2. 修改配置文件2.1 修改svnserve.conf文件2.2 修改passwd文件2.3 修改authz文件 3. 启动svn服务4. 内网穿透4.1 安装cpolar内网穿透4.2 创建隧道映射本地端口 5. 测试公网访问6. 配置固定公网TCP端口地址6.1 保留一个固定的公网TCP端口地址6…

阅读更多...

树莓派编译uboot及内核

树莓派编译uboot及内核

为了实验ebpf，需要自己编译内核开启相关选项，正好手头有树莓派的板子，所以正好用上。更换内核首先我自己用官方工具在sd卡上烧录了64位无桌面的系统，然后按照官方的文档，进行了内核的交叉编译，更换后使…

阅读更多...

Vue3组合式-依赖注入provideinject

Vue3组合式-依赖注入provideinject

一、注意点专门强调了是3.0且是组合式，不是2.0不支持也不是选项式不支持provide&&inject，是支持但是有很明显的弊端，不建议使用二、场景官方的解释: 通常情况下，当我们需要从父组件向子组件传递数据时，会…

阅读更多...

MySQL MyCAT读写分离

MySQL MyCAT读写分离

MyCAT读写分离环境部署 1.下载JDk：官网下载 2.解压文件 tar -xf jdf-8u181-linux-x64.tar.gz -C /usr/local/3.配置环境变量 [rootmycat ~]# vim /etc/profile.d/java.sh export JAVA_HOME/usr/local/java export PATH$JAVA_HOME/bin:$PATH export CLASSPATH.…

阅读更多...

论文阅读——X-Decoder

论文阅读——X-Decoder

Generalized Decoding for Pixel, Image, and Language Towards a Generalized Multi-Modal Foundation Model 1、概述 X-Decoder没有为视觉和VL任务开发统一的接口，而是建立了一个通用的解码范式，该范式可以通过采用共同的（例如语义&#…

阅读更多...

IDEA Maven Helper插件解决jar冲突

IDEA Maven Helper插件解决jar冲突

Jar包冲突报错程序抛出java.lang.ClassNotFoundException异常； 程序抛出java.lang.NoSuchMethodError异常； 程序抛出java.lang.NoClassDefFoundError异常； 程序抛出java.lang.LinkageError异常等；Maven Jar包管理机制在Maven项…

阅读更多...

【Dart】P2 数据类型（int、double、String、bool、List、Map）

【Dart】P2 数据类型（int、double、String、bool、List、Map）

Dart 数据类型 Dart 数据类型一览Dart 判断数据类型字符串类型数值类型布尔类型数组类型字典类型 Dart 数据类型一览类型数据类型描述数值int整型数值double浮点型字符串String布尔bool数组List又称为列表字典Maps键值对 Dart 判断数据类型 void main() {var str 123;print…

阅读更多...

微信小程序使用canvas制作海报并保存到本地相册（超级详细）

微信小程序使用canvas制作海报并保存到本地相册（超级详细）

案例图分析案例图都有哪些元素 1.渐变背景 2.圆形头像 3.文字 4.文字超出换行 5.图片居中 6.文字居中 7.单位适配 8.弹窗保存图片。因为一个个绘制图形太麻烦所以这里都采用了方法封装。 canvas api介绍最后有全部代码，复制即用。 data数据 data() {return {myO…

阅读更多...

最新文章