Google的MELON: 通过未定位图像重建精确3D模型的突破性算法

  每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗?订阅我们的简报,深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同,从行业内部的深度分析和实用指南中受益。不要错过这个机会,成为AI领域的领跑者。点击订阅,与未来同行! 订阅:https://rengongzhineng.io/

Google 最近开发的一种名为MELON的新算法,代表了计算机视觉领域的一项重大进展,使得在只有少量图像的情况下重建物体的3D形状成为可能。这一基础的计算机视觉任务在从电子商务3D模型的创建到自动驾驶汽车导航等多个领域都有广泛应用。

关键的问题之一是如何确定拍摄图像的确切位置,这一过程称为姿态推断。如果相机姿态已知,一系列成功的技术——如神经辐射场(NeRF)或3D高斯投影——可以重建3D物体。但如果这些姿态不可用,就会遇到困难的“先有鸡还是先有蛋”的问题,即如果我们知道3D物体,我们可以确定姿态,但在知道相机姿态之前我们无法重建3D物体。伪对称性——即许多物体从不同角度观看时看起来相似——使这个问题更加复杂。例如,正方形物体如椅子每旋转90°看起来都很相似。通过在转盘上从各种角度渲染物体并绘制其光度自相似性图,可以揭示物体的伪对称性。

在介绍了一种名为“MELON: 在SO(3)中未定位图像的NeRF”(MELON: Modulo Equivalent Latent Optimization of NeRF)的技术后,该技术在3DV 2024大会上受到关注,它可以完全从头开始确定以物体为中心的相机姿态,同时重建物体的3D形状。MELON是首批能够在没有初始相机姿态估计、复杂训练方案或有标签数据的预训练的情况下实现这一目标的技术之一。MELON是一种相对简单的技术,可以轻松地整合到现有的NeRF方法中。研究团队演示了MELON如何从未定位图像中重建NeRF,并在只需要4-6张物体图像的情况下实现了最先进的精度。

为了帮助解决这个难题,研究团队利用了两项关键技术来促进收敛。第一项是一个非常轻量级、动态训练的卷积神经网络(CNN)编码器,该编码器可以从训练图像中回归相机姿态。通过将缩小的训练图像传递给一个四层CNN来推断相机姿态。这个CNN从噪声中初始化,不需要预训练。其容量如此之小,以至于它迫使看起来相似的图像具有相似的姿态,从而为收敛提供了一个隐式的正则化。

第二项技术是模除损失(modulo loss),它同时考虑了物体的伪对称性。对于每个训练图像,研究团队从一组固定的视点渲染物体,只通过与训练图像最匹配的视图进行损失的反向传播。这有效地考虑了每张图像的多个视图的可能性。实际上,研究团队发现,在大多数情况下,N=2视图(从物体的另一侧观察)就足够了,但有时对于方形物体使用N=4可以获得更好的结果。

这两种技术被整合到标准的NeRF训练中,除了相机姿态不是固定的,而是由CNN推断并通过模除损失复制。光度梯度通过最佳匹配的相机反向传播到CNN中。研究团队观察到,相机通常会迅速收敛到全局最优姿态。在神经场训练完成后,MELON可以使用标准的NeRF渲染方法合成新的视图。

研究团队简化了问题,使用了NeRF合成数据集,这是NeRF研究的一个流行基准,并且在姿势推断文献中很常见。这个合成数据集的相机位于精确固定的距离,并且具有一致的“向上”方向,研究团队需要推断的只是相机的极坐标。这就像一个物体位于球体中心,相机始终指向它,在表面上移动一样。然后研究团队只需要纬度和经度(2个自由度)来指定相机姿势。

MELON使用了一个动态训练的轻量级CNN编码器,该编码器可以为每张图像预测一个姿态。通过模除损失复制预测的姿态,该损失只惩罚与地面真实颜色的最小L2距离。在评估时,神经场可以用于生成新的视图。

为了评估MELON在NeRF合成数据集上的性能,研究团队计算了两个关键指标。地面真实姿势与推断姿势之间的方向

误差可以量化为单一的角度误差,该误差在所有训练图像中平均计算,得到姿势误差。接着,研究团队通过测量从新视角渲染的MELON物体与保留测试视图的峰值信号噪声比(PSNR)来测试MELON渲染物体的准确性。结果显示,MELON在训练的前1000步内快速收敛到大多数相机的大致姿势,并在50k步后达到了27.5 dB的竞争性PSNR。

MELON在优化过程中对玩具卡车模型的收敛表现。左侧:NeRF的渲染图。右侧:极坐标图显示预测的(蓝色X标记)与地面真实(红点)相机的位置。MELON对NeRF合成数据集中的其他场景也取得了类似的结果。

此外,MELON还在从极度嘈杂的未定位图像进行新视角合成时表现良好。研究团队向训练图像中添加了不同量的白高斯噪声。例如,尽管在σ=1.0的情况下物体几乎无法辨认,但MELON仍能确定姿势并生成物体的新视图。

MELON从极嘈杂的未定位128×128图像中合成新视图的能力。顶部:训练视图中存在的噪声水平示例。底部:从嘈杂训练视图重建的模型及其平均角度姿势误差。考虑到如RawNeRF这样的技术已展示了NeRF在已知相机姿势下的出色去噪能力,MELON在未知相机姿势的嘈杂图像上如此稳健地工作的事实是意料之外的。

总结,MELON是一种无需近似姿势初始化、复杂的GAN训练计划或预训练有标签数据即可确定以物体为中心的相机姿势并重建3D物体的技术。MELON是一种相对简单的技术,可以轻松地集成到现有的NeRF方法中。尽管研究团队只在合成图像上演示了MELON的应用,但他们正在调整其技术以适应现实世界的条件。了解更多信息,请参阅相关论文和MELON网站。

MELON: NeRF with Unposed Images Using Equivalence Class Estimation

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/761571.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

算法沉淀——贪心算法七(leetcode真题剖析)

算法沉淀——贪心算法七 01.整数替换02.俄罗斯套娃信封问题03.可被三整除的最大和04.距离相等的条形码05.重构字符串 01.整数替换 题目链接:https://leetcode.cn/problems/integer-replacement/ 给定一个正整数 n ,你可以做如下操作: 如果…

数据结构:堆的创建和使用

上一期我们学习了树和二叉树的定义,其中我们了解到了两种特殊的二叉树:满二叉树和完全二叉树。 今天我们还要学习一种新的结构:堆 那这种结构和二叉树有什么联系呢??? 通过观察我们可以发现,…

什么是通用人工智能(AGI)以及为什么它还没有到来:给AI爱好者的现实检查

人工智能通用智能(AGI)及其现状:AI爱好者的现实检验 引言 人工智能(AI)已经无处不在。从智能助手到自动驾驶汽车,AI系统正在改变我们的生活和商业。但是,如果有一种AI能够超越执行特定任务的能力呢?如果有一种AI能够像人类一样学…

pytorch之torch.save()和torch.load()方法详细说明

torch.save()和torch.load()是PyTorch中用于模型保存和加载的函数。它们提供了一种方便的方式来保存和恢复模型的状态、结构和参数。可以使用它们来保存和加载整个模型或其他任意的Python对象,并且可以在加载模型时指定目标设备。 1.语法介绍 1.1 torch.save()语法…

uni-app开发---4.首页

一、创建 home 分支 运行如下的命令,基于 master 分支在本地创建 home 子分支,用来开发和 home 首页相关的功能: git checkout -b home 二、配置网络请求 由于平台的限制,小程序项目中不支持 axios,而且原生…

ARM-UART实验

串口控制三盏灯亮灭 视频 串口实验验证.mp4 代码 uart4.c #include "uart4.h"void uart4_init() {//使能GPIOB GPIOG UART4外设时钟RCC->MP_AHB4ENSETR | (0x1<<1);//GPIOBRCC->MP_AHB4ENSETR | (0x1<<6);//GPIOGRCC->MP_APB1ENSETR | (0X…

鸿蒙一次开发,多端部署(三)应用UX设计原则

设计原则 当为多种不同的设备开发应用时&#xff0c;有如下设计原则&#xff1a; 差异性 充分了解所要支持的设备&#xff0c;包括屏幕尺寸、交互方式、使用场景、用户人群等&#xff0c;对设备的特性进行针对性的设计。 一致性 除了要考虑每个设备的特性外&#xff0c;还…

SOCKS5代理、代理IP、HTTP与网络安全的融合之旅

在数字化世界的无边网络海洋中&#xff0c;数据以难以想象的速度流动&#xff0c;连接着世界的每一个角落。作为一名软件工程师&#xff0c;深入理解网络通信的基石——SOCKS5代理、代理IP、HTTP协议&#xff0c;并掌握这些技术在网络安全中的应用&#xff0c;是航行于这片海洋…

C# 读取二维数组集合输出到Word预设表格

目录 应用场景 设计约定 范例运行环境 配置Office DCOM 实现代码 组件库引入 核心代码 DataSet转二维数组 导出写入WORD表格 调用举例 小结 应用场景 存储或导出个人WORD版简历是招聘应用系统中的常用功能&#xff0c;我们通常会通过应用系统采集用户的个人简历信息…

android recyclerview 总结

面试官问我熟不熟 recyclerview&#xff0c;我说不熟 他就没再继续问&#xff0c;整个过程还是比较丝滑的 呵呵&#xff1f;&#xff1f;这么一个基础控件&#xff0c;你居然敢说不熟&#xff0c;真没想到 1 recyclerview相比listview的区别 1.1 ViewHolder 的编写规范化了 …

云主机搭建与服务软件部署

文章目录 登录访问云电脑与云电脑传输文件配置ssh服务ssh连接云电脑使用scp传输文件云端服务软件部署与实现外部访问首先购买云主机,以阿里云服务器 ECS为例子,官网购买就行了,选择默认安装了windows server 2022服务器系统 登录访问云电脑 购买完成进入控制台,能看到创建…

蓝桥杯第十三届蓝桥杯大赛软件赛决赛CC++ 研究生组之选素数

蓝桥杯第十三届蓝桥杯大赛软件赛决赛C/C 研究生组之选素数 [题目传送门](0选素数 - 蓝桥云课 (lanqiao.cn)) 问题大意&#xff1a; 小蓝有一个数字&#xff0c;要进行如下操作&#xff1a; 首先选出一个小于x 的质数p&#xff0c;然后将x变成要比原本大的最小的为p的倍数的…

js判断字符串是否为JSON格式

使用场景&#xff1a;在有些项目中我们会将用户输入的JSON字符串转化为对象形式并展示出来&#xff0c;那么首先我们就要判断一个字符串是否为一个合法的JSON字符串。 代码如下&#xff1a; isJSON(str) { if (typeof str string) { try { let obj …

使用CUDA 为Tegra构建OpenCV

返回&#xff1a;OpenCV系列文章目录&#xff08;持续更新中......&#xff09; 上一篇&#xff1a;MultiArch与Ubuntu/Debian 的交叉编译 下一篇&#xff1a;在iOS中安装 警告&#xff1a; 本教程可能包含过时的信息。 使用CUDA for Tegra 的OpenCV 本文档是构建支持 CUD…

谷歌具身智能最新进展:RT-H 机器人通用灵巧抓取

随着 GPT-4 等大型语言模型与机器人研究的结合愈发紧密&#xff0c;人工智能正在越来越多地走向现实世界&#xff0c;因此具身智能相关的研究也正受到越来越多的关注。在众多研究项目中&#xff0c;谷歌的「RT」系列机器人始终走在前沿&#xff08;参见《大模型正在重构机器人&…

各位老板,你需要的工厂数字孪生可视化库在这

各位老板是不是很喜欢下面这种有逼格的大屏,下面介绍一下怎么实现的,保证有所收获。 Cesium是一个开源的WebGL JavaScript库&#xff0c;用于创建高性能的三维地球、地图和虚拟环境。它支持在浏览器中实现高质量的地球模拟&#xff0c;同时提供了丰富的功能特点&#xff0c;使得…

Superset二次开发之PostgreSQL 统计信息介绍

pg_stat_user_tables 视图提供了关于 PostgreSQL 数据库中用户定义表的统计信息。这些统计信息涵盖了从表的扫描操作到修改次数等多个方面。 以下是 pg_stat_user_tables 中所有字段的含义&#xff1a; relid: 表的 OID&#xff08;对象标识符&#xff09;。这是表在系统中的…

k8s系列之十五 Istio 部署Bookinfo 应用

Bookinfo 应用中的几个微服务是由不同的语言编写的。 这些服务对 Istio 并无依赖&#xff0c;但是构成了一个有代表性的服务网格的例子&#xff1a;它由多个服务、多个语言构成&#xff0c;并且 reviews 服务具有多个版本。 该应用由四个单独的微服务构成。 这个应用模仿在线书…

模板高级使用(非类型模板参数,特化,分离编译)

文章目录 模板没有实例化取内嵌类型报错问题非类型模板参数模板的特化函数模板的特化类模板的特化1.全特化2.偏特化 模板的分离编译 模板没有实例化取内嵌类型报错问题 首先在这里分享一个模板的常见报错问题。就是模板的在没有实例化的情况下去取模板类里面的内嵌类型这时候的…

代码随想录|Day25|回溯05|491.非递减子序列、46.全排列、47.全排列II

491. 非递减子序列 本题并不能像 90.子集II 那样&#xff0c;使用排序进行树层去重。虽然题目没有明确不能排序&#xff0c;但如果排序了&#xff0c;集合本身就是递增子序列&#xff0c;这是LeetCode示例2中没有出现的。 所以本题的关键在于&#xff0c;如何在不排序的情况下对…