DUSt3R:简化三维重建

3D 重建是从二维 (2D) 图像创建对象或场景的 3D 虚拟表示的任务,可用于模拟、可视化或本地化等多种目的。 它广泛应用于计算机视觉、机器人和虚拟现实(VR)等多个领域。 在基本设置中,3D 重建方法输入一对图像 I1 和 I2,并输出两个图像的深度图 D1 和 D2,以及它们之间的相对姿态 P,如下图 1 所示。

图 1:以 4 个图像作为输入的 3D 重建,以输入图像的姿势作为输出的重建 3D 场景。

如果两个图像的相机参数(内在参数)已知,则当前最先进的多视图立体重建 (MVS) 方法(例如 DeMoN [1] 和 DeepV2D [2])可以完成此任务,如视频 1 所示。 ,不仅需要提供内在函数,而且做出良好估计的过程相当繁琐,并且经常容易出错。

视频 1:一种 3D 重建方法,以一对图像 I1 和 I2 作为输入,以深度图 D1 和 D2 作为输出,加上它们之间的相对姿态 P。

如果相机参数未知或估计不当,则 3D 重建会失败,如视频 2 所示。

视频 2:如果相机内在参数未知或估计不当,现有最先进的方法将无法重建 3D 场景。

DUSt3R方法更简单的主要优点是,通过直接对图像内容进行操作,它可以估计图像深度D1、D2和姿态P,并在不知道相机参数的情况下生成完整的3D重建。

视频 3:说明 DUSt3R 在不了解相机参数的情况下如何工作,这与现有的最先进方法相反

1、DUSt3R 的工作原理

DUSt3R 不受约束,因为它解决了在没有相机参数或视点姿势信息的情况下从图像进行 3D 重建的挑战。 该系统的工作原理是将成对重建制定为点图回归,这使其与标准投影相机模型有很大不同。 该网络有效地从图像对中解码出具有丰富几何细节的点图,从而简化了提取详细场景几何图形的过程。

网络架构基于标准 Transformer 编码器和解码器,这意味着我们可以利用现有强大的预训练模型。 我们的公式直接提供场景的 3D 模型以及深度信息,但我们还可以无缝恢复像素匹配以及相对和绝对相机姿势。

图 2:DUSt3R 架构显示了如何首先使用共享 ViT 编码器以连体方式对场景的两个视图(I1、I2)进行编码。 然后将生成的 token 表示 F1 和 F2 传递给两个 Transformer 解码器,它们通过交叉注意力不断交换信息。 最后,两个回归头输出两个相应的点图和相关的置信度图。 重要的是,这两个点图在第一图像 I1 的相同坐标系中表示。 使用简单的回归损失来训练网络。

2、从两个相反的图像重建

下面是从物体几乎相反的视点进行 3D 重建的几个示例。 对于每种情况(长凳、摩托车和烤面包机),我们都会显示两个输入图像和动画可视化视频。 即使图像之间几乎没有重叠的视觉内容:

DUSt3R 也能轻松处理剧烈的视点变化,例如摩托车:

视频 4:左侧是来自几乎相反视点的物体的 2 个输入图像,右侧是 DUSt3R 生成的 3D 可视化输出。

3、从一张图像重建

DUSt3R 甚至能够从单个图像重建 3D 场景,如下图 3 所示:

图 3:使用 DUST3R 从单个图像进行 3D 重建。 这张图片是一幅 17 世纪荷兰画作“圣杰罗姆在他的书房中,小亨德里克·范·斯滕韦克在橡木上的油画,1630 年”(维基共享资源)。

4、多视角全局优化

在提供多个视图的情况下,DUSt3R 提出了一种简单而有效的全局优化策略,该策略在公共参考系中表达所有成对点图:

视频 5:全局优化过程的动画,在公共参考系中表达所有成对点图。

5、将多个任务集成到单个管道中

DUSt3R 最重要的功能是能够将传统上单独处理的各种 3D 视觉任务统一到一个简化的管道中。 DUSt3R 架构利用预训练模型和完全数据驱动的方法来学习强大的几何和形状先验。 此过程会产生场景的直接 3D 模型,这些模型也适用于深度和姿态估计、视觉定位和多视图 3D 重建等任务。

图 4:DUSt3R 方法输出 3D 模型,这些模型适用于单个管道中的许多不同任务,到目前为止,这些任务都是单独处理的。

6、评价结果

DTU、Tanks and Temples 和 ETH3D 等数据集的实验结果表明,DUSt3R 在相机参数未知的情况下也能工作。 该网络可以处理单眼重建并在公共参考系中对齐多个图像对。 评估将 DUSt3R 定位为设定新标准,在包括多视图/单目深度估计和相机姿态估计在内的一系列任务中实现最先进的结果。 下面的表 1 将 DUSt3R 与 CO3Dv2 和 RealEst10K 数据集上的多视图姿态回归任务中最先进的方法进行了比较(详细信息请参阅论文 [3])。

表 1:该表比较了从 PnP-RANSAC (w/PnP) 或全局对齐 (GA) 获得的 DUSt3R 姿态估计结果与基于学习的 RelPose、Colmap+SPSG、基于结构的 PixSFM、PoseReg 和 PoseDiffusion。

7、结束语

DUSt3R 代表了 3D 几何视觉的重大进步,比传统方法有了显着的简化。 结果强调了其在处理各种 3D 视觉挑战方面的潜力和多功能性,而无需进行详尽而细致的估计和校准相机参数的步骤,这代表着 3D 重建领域的未来发展向前迈出了重要一步。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/763608.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

关于Java对接网络验证+实践小例子,简单易懂

一个简单的网络验证小例子,各位大佬勿喷 突发奇想,如果一位A友找你拿一份 Working Fruits,但是你不想这位A友把你辛苦劳作、熬夜加点写出的代码分享他或她的另外一位朋友B友,也许并不是很有价值的一个小作业而已,但是就…

数据结构:详解【栈和队列】的实现

目录 1. 栈1.1 栈的概念及结构1.2 栈的实现1.3 栈的功能1.4 栈的功能的实现1.5 完整代码 2. 队列2.1 队列的概念及结构2.2 队列的实现2.3 队列的功能2.4 队列的功能的实现2.5 完整代码 1. 栈 1.1 栈的概念及结构 栈:一种特殊的线性表,其只允许在固定的…

模拟B\S服务器(扩展知识点)

3.2 模拟B\S服务器(扩展知识点) 模拟网站服务器,使用浏览器访问自己编写的服务端程序,查看网页效果。 案例分析 准备页面数据,web文件夹。 复制到我们Module中,比如复制到day08中 我们模拟服务器端,ServerSocket类…

SpringCloud Alibaba实战和源码(8)OpenFeign使用

1、 使用Feign实现远程HTTP调用 1.1、常见HTTP客户端 HttpClient HttpClient 是 Apache Jakarta Common 下的子项目,用来提供高效的、最新的、功能丰富的支持 Http 协 议的客户端编程工具包,并且它支持 HTTP 协议最新版本和建议。HttpClient 相比传统 J…

RN开发搬砖经验之—处理“Duplicate class com.github.barteksc.pdfviewer“

问题信息 Duplicate class com.github.barteksc.pdfviewer.PDFView found in modules jetified-AndroidPdfViewer-3.1.0-beta.3-runtime (com.github.TalbotGooday:AndroidPdfViewer:3.1.0-beta.3) and jetified-android-pdf-viewer-2.8.2-runtime (com.github.barteksc:andro…

为车主提供多路况安全保障!“北欧轮胎安全专家”熊牌轮胎迎来全新升级

德国马牌轮胎旗下明星品牌——Gislaved熊牌轮胎迎来全新升级。 自进入中国市场以来,熊牌轮胎凭借着坚韧安全、静音降噪等特点,收获无数好评。此次全新升级的熊牌轮胎,在品牌logo中加入了“北欧棕熊”的形象,并且对此前轮胎标签中的…

qt使用Windows经典风格,以使QTreeView或QTreeWidge有节点线或加号

没有使用Windows经典风格的QTreeView或QTreeWidget显示如下: 使用Windows经典风格的QTreeView或QTreeWidget显示如下: 树展开时: 树未展开时: 可以看到: 未使用Windows经典风格时,QTreeView或QTreeWidget…

【MySQL】基本查询(1)

【MySQL】基本查询(1) 目录 【MySQL】基本查询(1)表的增删改查Create单行数据 全列插入多行数据 指定列插入插入否则更新替换 RetrieveSELECT 列全列查询指定列查询查询字段为表达式为查询结果指定别名结果去重 WHERE 条件英语不…

第六篇:视频广告格式上传指南(上) - IAB视频广告标准《数字视频和有线电视广告格式指南》

第六篇: 视频广告格式和上传指南(上) --- 我为什么要翻译介绍美国人工智能科技公司IAB系列技术标准(2) 流媒体数字视频的广告格式分为线性和非线性两大类。任何一个广告都可以与显示在视频播放器外部的伴随横幅一起提…

【Linux文件系列】重定向

💝💝💝欢迎来到我的博客,很高兴能够在这里和您见面!希望您在这里可以感受到一份轻松愉快的氛围,不仅可以获得有趣的内容和知识,也可以畅所欲言、分享您的想法和见解。 推荐:kwan 的首页,持续学…

CMake学习(下)

1. 嵌套的CMake 如果项目很大,或者项目中有很多的源码目录,在通过CMake管理项目的时候如果只使用一个CMakeLists.txt,那么这个文件相对会比较复杂,有一种化繁为简的方式就是给每个源码目录都添加一个CMakeLists.txt文件&#xff…

windows系统下python进程管理系统

两年来,我们项目的爬虫代码大部分都是放在公司的windows机器上运行的,原因是服务器太贵,没有那么多资源,而windows主机却有很多用不上。为了合理利用公司资源,降低数据采集成本,我在所以任务机器上使用anac…

将本地的项目上传到gitee,

场景:在本地有一个项目,想要把这个项目上传到gitee,且在gitee中已经创建好仓库 依次执行下图中的命令:

【linux】进程地址空间(进程三)

目录 快速了解:引入最基本的理解:细节:如何理解地址空间:a.什么是划分区域:b.地址空间的理解: 为什么要有进程空间?进一步理解页表与写时拷贝: 快速了解: 先来看这样一段…

2024年起重机司机(限桥式起重机)证考试题库及起重机司机(限桥式起重机)试题解析

题库来源:安全生产模拟考试一点通公众号小程序 2024年起重机司机(限桥式起重机)证考试题库及起重机司机(限桥式起重机)试题解析是安全生产模拟考试一点通结合(安监局)特种作业人员操作证考试大纲和(质检局)特种设备作…

第四范式2023全年业绩:营收人民币42.0亿元同比增长36.4%,行业大模型为千行万业赋能...

3月20日,第四范式(06682.HK)公布2023年全年业绩,营收稳步增长,盈利节奏清晰。 第四范式定位人工智能时代的软件企业,致力于用人工智能技术赋能千行万业,帮助各行业发现更多规律,形成…

【排序】插入排序与选择排序详解

文章目录 📝选择排序是什么?🌠选择排序思路🌉 直接选择排序🌠选择排序优化🌠优化方法🌉排序优化后问题 🌠选择排序效率特性 🌉插入排序🌠插入排序实现 &#…

day11【网络编程】-综合案例

day11【网络编程】 第三章 综合案例 3.1 文件上传案例 文件上传分析图解 【客户端】输入流,从硬盘读取文件数据到程序中。【客户端】输出流,写出文件数据到服务端。【服务端】输入流,读取文件数据到服务端程序。【服务端】输出流&#xf…

29-3 哥斯拉安装使用

环境准备:构建完善的安全渗透测试环境:推荐工具、资源和下载链接_渗透测试靶机下载-CSDN博客 一、哥斯拉 (Godzilla) 介绍 哥斯拉是一个基于流量、HTTP全加密的webshell管理工具,具有以下特点: 内置了3种Payload以及6种加密器,6种支持脚本后缀,20个内置插件基于Java,可…

Java最后一块石头的重量 II(力扣Leetcod1049)

最后一块石头的重量 II 力扣原题 有一堆石头&#xff0c;用整数数组 stones 表示。其中 stones[i] 表示第 i 块石头的重量。 每一回合&#xff0c;从中选出任意两块石头&#xff0c;然后将它们一起粉碎。假设石头的重量分别为 x 和 y&#xff0c;且 x < y。那么粉碎的可能结…