Google的MELON: 通过未定位图像重建精确3D模型的突破性算法

  每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗?订阅我们的简报,深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同,从行业内部的深度分析和实用指南中受益。不要错过这个机会,成为AI领域的领跑者。点击订阅,与未来同行! 订阅:https://rengongzhineng.io/

Google 最近开发的一种名为MELON的新算法,代表了计算机视觉领域的一项重大进展,使得在只有少量图像的情况下重建物体的3D形状成为可能。这一基础的计算机视觉任务在从电子商务3D模型的创建到自动驾驶汽车导航等多个领域都有广泛应用。

关键的问题之一是如何确定拍摄图像的确切位置,这一过程称为姿态推断。如果相机姿态已知,一系列成功的技术——如神经辐射场(NeRF)或3D高斯投影——可以重建3D物体。但如果这些姿态不可用,就会遇到困难的“先有鸡还是先有蛋”的问题,即如果我们知道3D物体,我们可以确定姿态,但在知道相机姿态之前我们无法重建3D物体。伪对称性——即许多物体从不同角度观看时看起来相似——使这个问题更加复杂。例如,正方形物体如椅子每旋转90°看起来都很相似。通过在转盘上从各种角度渲染物体并绘制其光度自相似性图,可以揭示物体的伪对称性。

在介绍了一种名为“MELON: 在SO(3)中未定位图像的NeRF”(MELON: Modulo Equivalent Latent Optimization of NeRF)的技术后,该技术在3DV 2024大会上受到关注,它可以完全从头开始确定以物体为中心的相机姿态,同时重建物体的3D形状。MELON是首批能够在没有初始相机姿态估计、复杂训练方案或有标签数据的预训练的情况下实现这一目标的技术之一。MELON是一种相对简单的技术,可以轻松地整合到现有的NeRF方法中。研究团队演示了MELON如何从未定位图像中重建NeRF,并在只需要4-6张物体图像的情况下实现了最先进的精度。

为了帮助解决这个难题,研究团队利用了两项关键技术来促进收敛。第一项是一个非常轻量级、动态训练的卷积神经网络(CNN)编码器,该编码器可以从训练图像中回归相机姿态。通过将缩小的训练图像传递给一个四层CNN来推断相机姿态。这个CNN从噪声中初始化,不需要预训练。其容量如此之小,以至于它迫使看起来相似的图像具有相似的姿态,从而为收敛提供了一个隐式的正则化。

第二项技术是模除损失(modulo loss),它同时考虑了物体的伪对称性。对于每个训练图像,研究团队从一组固定的视点渲染物体,只通过与训练图像最匹配的视图进行损失的反向传播。这有效地考虑了每张图像的多个视图的可能性。实际上,研究团队发现,在大多数情况下,N=2视图(从物体的另一侧观察)就足够了,但有时对于方形物体使用N=4可以获得更好的结果。

这两种技术被整合到标准的NeRF训练中,除了相机姿态不是固定的,而是由CNN推断并通过模除损失复制。光度梯度通过最佳匹配的相机反向传播到CNN中。研究团队观察到,相机通常会迅速收敛到全局最优姿态。在神经场训练完成后,MELON可以使用标准的NeRF渲染方法合成新的视图。

研究团队简化了问题,使用了NeRF合成数据集,这是NeRF研究的一个流行基准,并且在姿势推断文献中很常见。这个合成数据集的相机位于精确固定的距离,并且具有一致的“向上”方向,研究团队需要推断的只是相机的极坐标。这就像一个物体位于球体中心,相机始终指向它,在表面上移动一样。然后研究团队只需要纬度和经度(2个自由度)来指定相机姿势。

MELON使用了一个动态训练的轻量级CNN编码器,该编码器可以为每张图像预测一个姿态。通过模除损失复制预测的姿态,该损失只惩罚与地面真实颜色的最小L2距离。在评估时,神经场可以用于生成新的视图。

为了评估MELON在NeRF合成数据集上的性能,研究团队计算了两个关键指标。地面真实姿势与推断姿势之间的方向

误差可以量化为单一的角度误差,该误差在所有训练图像中平均计算,得到姿势误差。接着,研究团队通过测量从新视角渲染的MELON物体与保留测试视图的峰值信号噪声比(PSNR)来测试MELON渲染物体的准确性。结果显示,MELON在训练的前1000步内快速收敛到大多数相机的大致姿势,并在50k步后达到了27.5 dB的竞争性PSNR。

MELON在优化过程中对玩具卡车模型的收敛表现。左侧:NeRF的渲染图。右侧:极坐标图显示预测的(蓝色X标记)与地面真实(红点)相机的位置。MELON对NeRF合成数据集中的其他场景也取得了类似的结果。

此外,MELON还在从极度嘈杂的未定位图像进行新视角合成时表现良好。研究团队向训练图像中添加了不同量的白高斯噪声。例如,尽管在σ=1.0的情况下物体几乎无法辨认,但MELON仍能确定姿势并生成物体的新视图。

MELON从极嘈杂的未定位128×128图像中合成新视图的能力。顶部:训练视图中存在的噪声水平示例。底部:从嘈杂训练视图重建的模型及其平均角度姿势误差。考虑到如RawNeRF这样的技术已展示了NeRF在已知相机姿势下的出色去噪能力,MELON在未知相机姿势的嘈杂图像上如此稳健地工作的事实是意料之外的。

总结,MELON是一种无需近似姿势初始化、复杂的GAN训练计划或预训练有标签数据即可确定以物体为中心的相机姿势并重建3D物体的技术。MELON是一种相对简单的技术,可以轻松地集成到现有的NeRF方法中。尽管研究团队只在合成图像上演示了MELON的应用,但他们正在调整其技术以适应现实世界的条件。了解更多信息,请参阅相关论文和MELON网站。

MELON: NeRF with Unposed Images Using Equivalence Class Estimation

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/761571.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

算法沉淀——贪心算法七(leetcode真题剖析)

算法沉淀——贪心算法七 01.整数替换02.俄罗斯套娃信封问题03.可被三整除的最大和04.距离相等的条形码05.重构字符串 01.整数替换 题目链接:https://leetcode.cn/problems/integer-replacement/ 给定一个正整数 n ,你可以做如下操作: 如果…

数据结构:堆的创建和使用

上一期我们学习了树和二叉树的定义,其中我们了解到了两种特殊的二叉树:满二叉树和完全二叉树。 今天我们还要学习一种新的结构:堆 那这种结构和二叉树有什么联系呢??? 通过观察我们可以发现,…

鸿蒙一次开发,多端部署(三)应用UX设计原则

设计原则 当为多种不同的设备开发应用时,有如下设计原则: 差异性 充分了解所要支持的设备,包括屏幕尺寸、交互方式、使用场景、用户人群等,对设备的特性进行针对性的设计。 一致性 除了要考虑每个设备的特性外,还…

C# 读取二维数组集合输出到Word预设表格

目录 应用场景 设计约定 范例运行环境 配置Office DCOM 实现代码 组件库引入 核心代码 DataSet转二维数组 导出写入WORD表格 调用举例 小结 应用场景 存储或导出个人WORD版简历是招聘应用系统中的常用功能,我们通常会通过应用系统采集用户的个人简历信息…

云主机搭建与服务软件部署

文章目录 登录访问云电脑与云电脑传输文件配置ssh服务ssh连接云电脑使用scp传输文件云端服务软件部署与实现外部访问首先购买云主机,以阿里云服务器 ECS为例子,官网购买就行了,选择默认安装了windows server 2022服务器系统 登录访问云电脑 购买完成进入控制台,能看到创建…

使用CUDA 为Tegra构建OpenCV

返回:OpenCV系列文章目录(持续更新中......) 上一篇:MultiArch与Ubuntu/Debian 的交叉编译 下一篇:在iOS中安装 警告: 本教程可能包含过时的信息。 使用CUDA for Tegra 的OpenCV 本文档是构建支持 CUD…

谷歌具身智能最新进展:RT-H 机器人通用灵巧抓取

随着 GPT-4 等大型语言模型与机器人研究的结合愈发紧密,人工智能正在越来越多地走向现实世界,因此具身智能相关的研究也正受到越来越多的关注。在众多研究项目中,谷歌的「RT」系列机器人始终走在前沿(参见《大模型正在重构机器人&…

各位老板,你需要的工厂数字孪生可视化库在这

各位老板是不是很喜欢下面这种有逼格的大屏,下面介绍一下怎么实现的,保证有所收获。 Cesium是一个开源的WebGL JavaScript库,用于创建高性能的三维地球、地图和虚拟环境。它支持在浏览器中实现高质量的地球模拟,同时提供了丰富的功能特点,使得…

k8s系列之十五 Istio 部署Bookinfo 应用

Bookinfo 应用中的几个微服务是由不同的语言编写的。 这些服务对 Istio 并无依赖,但是构成了一个有代表性的服务网格的例子:它由多个服务、多个语言构成,并且 reviews 服务具有多个版本。 该应用由四个单独的微服务构成。 这个应用模仿在线书…

模板高级使用(非类型模板参数,特化,分离编译)

文章目录 模板没有实例化取内嵌类型报错问题非类型模板参数模板的特化函数模板的特化类模板的特化1.全特化2.偏特化 模板的分离编译 模板没有实例化取内嵌类型报错问题 首先在这里分享一个模板的常见报错问题。就是模板的在没有实例化的情况下去取模板类里面的内嵌类型这时候的…

代码随想录|Day25|回溯05|491.非递减子序列、46.全排列、47.全排列II

491. 非递减子序列 本题并不能像 90.子集II 那样,使用排序进行树层去重。虽然题目没有明确不能排序,但如果排序了,集合本身就是递增子序列,这是LeetCode示例2中没有出现的。 所以本题的关键在于,如何在不排序的情况下对…

2024格行VS华为VS飞猫哪个是最值得购买随身WiFi?中兴随身WiFi好用吗?

经常出差旅行,或者户外工作的朋友因为长期在外,手机流量经常不够用,想必都是随身WiFi的忠实用户,但是也都被这款产品割韭菜割的头皮发麻。今天,我们统计了市面上最靠谱的、最热销、口碑最好的几款随身WiFi。排名依据来…

Java学习笔记(17)

集合进阶 单列集合 Collection List set Add clear remove contains isempty size Add方法可能也会添加失败 同理,可能删除失败 Contains细节 为什么要重写equals? 因为contains底层用的是object类中的equals方法,比较的是地址值&#xf…

为什么穷人什么都懂,就是不懂赚钱?2024金矿项目! 2024创业好项目 !2024创业新项目新商机! 2024超级机会

为什么穷人什么都懂,就是不懂赚钱?有位网友是这么说的,穷人的思维有一个致命的缺陷,就是追求确定性,进而失去了可能性。而赚钱的真相实际上非常残酷。世界上能够赚钱的事情必定是不确定的,能够赚取巨额财富…

万亿参数GPU!算力提升30倍!英伟达新核弹B200重磅发布!

关注文章底部的公众号,获取每日AI资讯 前沿 3月18日-21日期间,英伟达在美国圣何塞召开GTC大会。创始人黄仁勋也在GTC大会上,做了一场长达两小时的开幕演讲,展示了其在AI芯片、机器人、汽车等领域的最新研发成果和技术进展,号称让全世界用上AI。 全球头号人工智能领域开发…

算法第三十一天-直方图的水量

直方图的水量 题目要求 解题思路 使用面向列的计算比面向行的计算更加容易。我们只需要考虑当前的位置的左右最高模板的高度。 方法一、暴力解法 每个位置能接到多少雨水,很容易想到[木桶效应],即是由两边最短的木板限制的。那么直观思路就是&#x…

扶贫惠农推介系统|基于jsp技术+ Mysql+Java+ B/S结构的扶贫惠农推介系统设计与实现(可运行源码+数据库+设计文档)

推荐阅读100套最新项目 最新ssmjava项目文档视频演示可运行源码分享 最新jspjava项目文档视频演示可运行源码分享 最新Spring Boot项目文档视频演示可运行源码分享 2024年56套包含java,ssm,springboot的平台设计与实现项目系统开发资源(可…

Python学习:元组

Python 元组概念 Python 中的元组(tuple)是不可变的有序集合。它是一种数据类型,类似于列表(list),但在创建后不能被修改。元组使用圆括号 () 来表示,其中的元素可以是任意类型,并且…

初识数据库原理:为什么需要数据库?

初识数据库原理:什么是数据库? Chapter1:什么是数据库? 笔记来源:《漫画数据库》–科学出版社 1.1 为什么需要数据库? 文件应用的管理方式,数据会出现重复。 若各个部门各自管理自己一方的数…

2024年【T电梯修理】考试内容及T电梯修理作业考试题库

题库来源:安全生产模拟考试一点通公众号小程序 T电梯修理考试内容根据新T电梯修理考试大纲要求,安全生产模拟考试一点通将T电梯修理模拟考试试题进行汇编,组成一套T电梯修理全真模拟考试试题,学员可通过T电梯修理作业考试题库全真…