单张图像3D重建:原理与PyTorch实现

近年来,深度学习(DL)在解决图像分类、目标检测、语义分割等 2D 图像任务方面表现出了出色的能力。DL 也不例外,在将其应用于 3D 图形问题方面也取得了巨大进展。 在这篇文章中,我们将探讨最近将深度学习扩展到单图像 3D 重建任务的尝试,这是 3D 计算机图形领域最重要和最深刻的挑战之一。

 在线工具推荐: Three.js AI纹理开发包 - YOLO合成数据生成器 - GLTF/GLB在线编辑 - 3D模型格式在线转换 - 可编程3D场景编辑器

1、单图像3D重建任务

单个图像只是 3D 对象到 2D 平面的投影,来自高维空间的一些数据必然在低维表示中丢失。 因此,从单视图 2D 图像来看,永远不会有足够的数据来构造其 3D 组件。

因此,从单个 2D 图像创建 3D 感知的方法需要先了解 3D 形状本身。

在 2D 深度学习中,卷积自动编码器是学习输入图像的压缩表示的非常有效的方法。 将这种架构扩展到学习紧凑的形状知识是将深度学习应用于 3D 数据的最有前途的方法。

2、3D 数据的表示

与只有一种计算机格式(像素)通用表示形式的 2D 图像不同,有多种方法可以用数字格式表示 3D 数据。 它们各有优缺点,因此数据表示的选择直接影响可以使用的方法。

2.1 光栅化形式(体素网格)

光栅法表示的3D模型可以直接应用CNN。

每个蓝色框都是一个体素,大部分体素是空的。

体素(voxel)是体积像素的缩写,是空间网格像素到体积网格体素的直接扩展。 每个体素的局部性共同定义了该体积数据的独特结构,因此 ConvNet 的局部性假设在体积格式中仍然成立。

体素表示的密度低


然而,这种表示是稀疏且浪费的。 有用体素的密度随着分辨率的增加而降低。

  • 优点:可以直接应用CNN从2D到3D表示。
  • 缺点:浪费表示,细节和资源(计算、内存)之间的高度权衡。

2.2 几何形式

几何形式表达的3D模型不能直接应用CNN。

  • 多边形网格:是顶点、边和面的集合,定义了物体的 3 维表面。 它可以以相当紧凑的表示形式捕获粒度细节。
  • 点云:3D 坐标 (x, y, z) 中的点的集合,这些点一起形成类似于 3 维物体形状的云。 点的集合越大,获得的细节就越多。 不同顺序的同一组点仍然表示相同的 3D 对象。例如:
# point_cloud1 and point_cloud2 represent the same 3D structure
# even though they are represented differently in memory
point_cloud1 = [(x1, y1, z1), (x2, y2, z2),..., (xn, yn, zn)]
point_cloud2 = [(x2, y2, z2), (x1, y1, z1),..., (xn, yn, zn)]

几何表示法的优缺点如下:

  • 优点:表现紧凑,注重3D物体的细节表面。
  • 缺点:不能直接应用CNN。

3、我们的实现方法

我们将展示一种结合了点云紧凑表示的优点但使用传统的 2D ConvNet 来学习先验形状知识的实现。

3.1 2D 结构生成器

我们将构建一个标准的 2D CNN 结构生成器,用于学习对象的先验形状知识。

体素方法并不受欢迎,因为它效率低下,而且不可能直接用 CNN 学习点云。 因此,我们将学习从单个图像到点云的多个 2D 投影的映射,视点处的 2D 投影定义为: 2D projection == 3D coordinates (x,y,z) + binary mask (m) 。

  • 输入:单个 RGB 图像
  • 输出:预定视点的 2D 投影

代码如下:

#--------- Pytorch pseudo-code for Structure Generator ---------#
class Structure_Generator(nn.Module):# contains two module in sequence, an encoder and a decoderdef __init__(self):self.encoder = Encoder()self.decoder = Decoder()def forward(self, RGB_image):# Encoder takes in one RGB image and # output an encoded deep shape-embeddingshape_embedding = self.encoder(RGB_image)# Decoder takes the encoded values and output  # multiples 2D projection (XYZ + mask)XYZ, maskLogit = self.decoder(shape_embedding)return XYZ, maskLogit

3.2 点云融合

将预测的 2D 投影融合到原生 3D 点云数据中。 这是可能的,因为这些预测的观点是固定的并且是预先已知的。

  • 输入:预定视点的 2D 投影。
  • 输出:点云

3.3 伪渲染器

我们推断,如果从预测的 2D 投影融合的点云有任何好处,那么如果我们从新的视点渲染不同的 2D 投影,它也应该类似于地面实况 3D 模型的投影。

  • 输入:点云
  • 输出:新视点的深度图像

3.4 训练动态

将这 3 个模块组合在一起,我们获得了端到端模型,该模型学习仅使用 2D 卷积结构生成器从一张 2D 图像生成紧凑的点云表示。

由 2D 卷积结构生成器、点云融合和伪渲染模块组成的完整架构

这个模型的巧妙技巧是让融合+伪渲染模块纯粹可微,几何推理:

  • 几何代数意味着没有可学习的参数,使模型尺寸更小并且更容易训练。
  • 可微分意味着我们可以通过它反向传播梯度,从而可以使用 2D 投影的损失来学习生成 3D 点云。

代码如下:

# --------- Pytorch pseudo-code for training loop ----------#
# Create 2D Conv Structure generator
model = Structure_Generator()
# only need to learn the 2D structure optimizer
optimizer = optim.SGD(model.parameters())
# 2D projections from predetermined viewpoints
XYZ, maskLogit = model(RGB_images)
# fused point cloud
#fuseTrans is predetermined viewpoints info
XYZid, ML = fuse3D(XYZ, maskLogit, fuseTrans)
# Render new depth images at novel viewpoints
# renderTrans is novel viewpoints info
newDepth, newMaskLogit, collision = render2D(XYZid, ML, renderTrans)
# Compute loss between novel view and ground truth
loss_depth = L1Loss()(newDepth, GTDepth)
loss_mask = BCEWithLogitLoss()(newMaskLogit, GTMask)
loss_total = loss_depth + loss_mask
# Back-propagation to update Structure Generator
loss_total.backward()
optimizer.step()

3.5 实验结果

来自地面实况 3D 模型的新深度图像与来自学习点云模型的渲染深度图像的比较:

从一张 RBG 图像 → 3D 点云:

有了详细的点云表示,就可以使用 MeshLab 将其转换为其他表示,例如与 3D 打印机兼容的体素或多边形网格。


原文链接:单图像3D重建原理实现 - BimAnt

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/152979.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【MySql】13- 实践篇(十一)

文章目录 1. 自增主键为什么不是连续的?1.1 自增值保存在哪儿?1.2 自增值修改机制1.2.1 自增值的修改时机1.2.2 自增值为什么不能回退? 1.3 自增锁的优化1.3.1 自增锁设计历史 2. Insert语句为何很多锁?2.1 insert … select 语句2.2 insert 循环写入2…

以“防方视角”观Shiro反序列化漏洞

为方便您的阅读,可点击下方蓝色字体,进行跳转↓↓↓ 01 案例概述02 攻击路径03 防方思路 01 案例概述 这篇文章来自微信公众号“潇湘信安”,记录的某师傅如何发现、利用Shiro反序列化漏洞,又是怎样绕过火绒安全防护实现文件落地、…

BLIP-2:冻结现有视觉模型和大语言模型的预训练模型

Li J, Li D, Savarese S, et al. Blip-2: Bootstrapping language-image pre-training with frozen image encoders and large language models[J]. arXiv preprint arXiv:2301.12597, 2023. BLIP-2,是 BLIP 系列的第二篇,同样出自 Salesforce 公司&…

物流实时数仓:采集通道搭建

系列文章目录 物流实时数仓:环境搭建 文章目录 系列文章目录前言一、环境准备1.前置环境2.hbase安装1.上传并解压2.配置环境变量3.拷贝jar包4.编写配置文件5.分发配置文件 3.Redis安装1.安装需要的编译环境2.上传并解压文件3.编译安装4.后台访问 4.ClickHouse安装5…

OpenCvSharp从入门到实践-(01)认识OpenCvSharp开发环境搭建

目录 一、OpenCV 二、OpenCvSharp 三、OpenCvSharp开发环境搭建 四、下载 五、其他 一、OpenCV OpenCV是基于Apache2.0许可(开源)发行的跨平台计算机视觉和机器学习函数库,支持Windows、Linux、Android和Mac OS操作系统。OpenCV由一系…

Oracle for Windows安装和配置——Oracle for Windows net配置

2.3. Oracle for Windows net配置 2.3.1. Oracle net配置 2.3.1.1. Oracle net简介 前述章节中,我们只是安装了数据库软件,创建了数据库,测试在服务器本地连接查询数据库。但还不能通过网络远程连接访问数据库,因为我们还没配置用来远程连接访问该数据库的组件Oracle ne…

【Linux】缓冲区+磁盘+动静态库

一、缓冲区 1、缓冲区的概念 缓冲区的本质就是一段用作缓存的内存。 2、缓冲区的意义 节省进程进行数据IO的时间。进程使用fwrite等函数把数据拷贝到缓冲区或者外设中。 3、缓冲区刷新策略 3.1、立即刷新(无缓冲)——ffush() 情况很少&#xff0c…

【蓝桥杯 第十五届模拟赛 Java B组】训练题(A - I)

目录 A、求全是字母的最小十六进制数 B、Excel表格组合 C、求满足条件的日期 D、 取数字 - 二分 (1)暴力 (2)二分 E、最大连通块 - bfs F、哪一天? G、信号覆盖 - bfs (1)bfs&#xf…

【前端学java】java中的日期操作(12)

往期回顾: 【前端学java】JAVA开发的依赖安装与环境配置 (0)【前端学 java】java的基础语法(1)【前端学java】JAVA中的packge与import(2)【前端学java】面向对象编程基础-类的使用 &#xff08…

使用Python的turtle模块绘制玫瑰花图案(含详细Python代码与注释)

1.1引言 turtle模块是Python的标准库之一,它提供了一个绘图板,让我们可以在屏幕上绘制各种图形。通过使用turtle,我们可以创建花朵、叶子、复杂的图案等等。本博客将介绍如何使用turtle模块实现绘制图形的过程,并展示最终结果。 …

创建一个用户test且使用testtab表空间及testtemp临时表空间并授予其权限,密码随意

文章目录 1、连接到数据库2、创建表空间3、创建用户4、授予权限5、测试 1、连接到数据库 sqlplus / as sysdba2、创建表空间 创建testtab表空间 CREATE TABLESPACE testtab DATAFILE /u01/app/oracle/oradata/orcl/testtab.dbf SIZE 50M AUTOEXTEND ON NEXT 5M MAXSIZE …

Unity中Shader法线贴图(下)理论篇

文章目录 前言一、采样出错的原因二、切线空间是什么?切线空间图解: 三、计算方式1、统一变换到切线空间下进行计算2、统一变换到世界空间下进行计算 四、一般统一变换到世界空间下的坐标进行计算1、求M^-1^2、求出n~w~ 前言 这篇文章,主要解…

[Android] Amazon 的 android 音视频开发文档

https://developer.amazon.com/zh/docs/fire-tv/audio-video-synchronization.html#22-getplaybackheadposition-api-level-3https://developer.amazon.com/zh/docs/fire-tv/audio-video-synchronization.html#22-getplaybackheadposition-api-level-3

车载毫米波雷达行业发展1——概述

1.1 毫米波雷达定义及产品演进 1.1.1 毫米波雷达定义 毫米波雷达(mmWave Radar)是指工作在毫米波波段的雷达,其频域介于 30~300GHz,波长1~10mm。毫米波雷达稳定性高,抗干扰能力强,可穿透雾、烟、灰尘环境&#xff0…

Java基础-----StringBuffer和StringBuilder

文章目录 1.StringBuffer1.1 构造方法1.2 常用方法 2.StringBuilder3.String、StringBuffer、StringBuilder的区别 1.StringBuffer 内容可变的字符串类,适应StringBuffer来对字符串的内容进行动态操作,不会产生额外的对象。StringBuffer在初始时&#x…

AI集成ChatGPT敲代码神器Copilot

📑前言 本文主要是AI工具Copilot解读文章,如果有什么需要改进的地方还请大佬指出⛺️ 🎬作者简介:大家好,我是青衿🥇 ☁️博客首页:CSDN主页放风讲故事 🌄每日一句:努力…

实现领域驱动设计-应用结构

写在前面: DDD的一大好处便是它并不需要使用特定的架构。我们可以在整个系统中使用多种风格的架构。有些架构包围着领域模型,能够全局性地影响系统,而有些架构则满足了某些特定的需求。我们的目标是选择适合于自己的架构和架构模式。 在选择架…

【HarmonyOS开发】配置开发工具DevEco Studio

1、下载 注意: 1、安装过程中,一定要自定义安装位置,包比较大,包比较大,包比较大!!! 2、可以将该工具添加到右键中,否则,如果你的项目不是HarmonyOS&#xff…

BetterDisplay Pro v2.0.11(显示器颜色校准软件)

BetterDisplay Pro是一款为Mac电脑设计的屏幕亮度调节软件,旨在提高显示器的色彩和亮度表现。它可以根据用户的需求和显示器的特性,自动调整显示器的亮度、色温、对比度等参数,以获得更加真实、舒适的视觉效果。 这款软件拥有智能调节功能&a…

数据结构:枚举

概念 枚举主要用途是:将一组常量组织起来,在这之前表示一组常量通常使用定义常量的方式: 比如下面的例子: public static final int RED 1; public static final int GREEN 2; public static final int BLACK 3; 利用常量…