Adobe研究人员研发新AI模型LRM:实现从2D样本瞬时生成3D图像

由Adobe Research和澳大利亚国立大学(ANU)联合研发的人工智能模型宣布了一项突破性的成果,能够从单一的2D图像中生成3D图像。

研究人员表示,他们的新算法在大规模图像样本上进行训练,可以在几秒钟内生成这样的3D图像。该算法采用了名为LRM(Large Reconstruction Model)的高度可扩展神经网络,包含一百万数据集和五亿参数,涵盖图像、3D形状和视频等多种数据。

该项目的领导作者、澳大利亚国立大学工程、计算和控制学院的毕业生、Adobe实习生Yicong Hong表示:“这种高容量模型和大规模训练数据的结合使得我们的模型具有很强的泛化能力,能够从各种测试输入中产生高质量的3D重建。”

据Hong介绍,早期的3D成像软件只在特定主题类别中表现良好,后来的图像生成进展是通过程序如DALL-E和Stable Diffusion实现的,它们利用了2D扩散模型的卓越泛化能力以实现多视图。然而,这些程序的结果仅限于预训练的2D生成模型。

其他系统利用每形状优化来取得令人印象深刻的结果,但根据Hong的说法,它们“通常缓慢且不切实际”。他指出,利用大规模数据的巨大变压器网络内的自然语言模型的发展激发了他的团队提出一个问题:“是否可能学习从单一图像重建对象的通用3D先验?”他们的答案是“是”。

“LRM可以从现实世界中捕获的各种图像以及由生成模型创建的图像中重建高保真度的3D形状。” Hong说道,“LRM也是下游应用的高度实用解决方案,因为它可以在仅五秒钟内生成一个3D形状,无需后期优化。”

该程序的成功在于其能够利用数百万图像参数的数据库,并预测神经辐射场(NeRF)。这意味着它能够仅基于2D图像生成逼真的3D图像,即使这些图像是低分辨率的。与之前的3D软件相比,该模型的突破性在于其快速、高效地生成高质量的3D图像,为增强现实、虚拟现实系统、游戏、影视动画和工业设计等领域带来了转变。

总的来说,LRM(Large Reconstruction Model)是一种用于从单张图像生成高保真度3D物体模型的模型。LRM通过采用大规模数据和高容量模型的组合,实现了从单张图像到3D模型的快速而准确的重建。以下是LRM的主要功能特色:

1. 快速生成:LRM能够在短短5秒内,从单张输入图像中生成高保真度的3D物体模型。

2. 大规模训练:与许多先前的方法不同,LRM采用了高度可扩展的基于transformer的架构,具有5亿个可学习参数,用于直接预测神经辐射场(NeRF)。

3. 数据多样性:模型以端到端的方式在包含大约100万个对象的大规模多视图数据上进行训练,包括Objaverse的合成渲染和MVImgNet的实际捕捉数据。

4.高通用性: 由于高容量模型和大规模训练数据的结合,LRM具有很强的通用性,能够从各种测试输入中生成高质量的3D重建,包括真实世界中的野外捕捉和生成模型的图像。

5. Transformer-Based架构:LRM采用了完全可微分的transformer-based编码器-解码器框架,通过预训练的视觉模型(DINO)对输入图像进行编码,使用大型transformer解码器通过交叉注意力将图像特征投影到3D三平面表示,然后通过多层感知器预测体积渲染的点颜色和密度。

项目页面:https://yiconghong.me/LRM/

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/141963.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

虚拟机Ubuntu安装Tamarin prover记录

安装vmware VMware Workstation Pro 16 链接:https://pan.baidu.com/s/1_InZkEje8NjRN6Q-ypccQg 提取码:2023 许可证密钥 ZF3R0-FHED2-M80TY-8QYGC-NPKYF安装ubuntu 22.4 链接:https://pan.baidu.com/s/1DwCaUw0f8N3Ka1tNAWDacg 提取码&…

【LIUNX】配置缓存DNS服务

配置缓存DNS服务 A.安装bind bind-utils1.尝试修改named.conf配置文件2.测试nslookup B.修改named.conf配置文件1.配置文件2.再次测试 缓存DNS服务器:只提供域名解析结果的缓存功能,目的在于提高数据查询速度和效率,但是没有自己控制的区域地…

阿里云国际站:应用实时监控服务

文章目录 一、阿里云应用实时监控服务的概念 二、阿里云应用实时监控服务的优势 三、阿里云应用实时监控服务的功能 四、写在最后 一、阿里云应用实时监控服务的概念 应用实时监控服务 (Application Real-Time Monitoring Service) 作为一款云原生可观测产品平台&#xff…

记忆科技携手中国电信,一站式存储打造坚实数字底座

11月10日,以“数字科技 焕新启航”为主题的2023数字科技生态大会在广州盛大开幕,本次大会由中国电信、广东省人民政府联合举办,是一场数字科技领域的年度盛会。忆联母公司记忆科技作为中国电信的合作伙伴之一受邀参会,深度参与了大…

Flink SQL -- 命令行的使用

1、启动Flink SQL 首先启动Flink的集群,选择独立集群模式或者是session的模式。此处选择是时session的模式:yarn-session.sh -d 在启动Flink SQL的client: sql-client.sh 2、kafka SQL 连接器 在使用kafka作为数据源的时候需要上传jar包到…

Ubuntu 22.04 (WSL2) 安装 libssl1.1

废话不多说!!! 步骤一: echo "deb http://security.ubuntu.com/ubuntu focal-security main" | sudo tee /etc/apt/sources.list.d/focal-security.list 步骤二: sudo apt-get update 步骤三&#xff1a…

2311rust特征

Rust无成本抽象 Rust中抽象基石是trait: 1,Trait是Rust中唯一的接口概念.多个类型可实现一个特征,事实上,可为现有类型提供新的特征实现.另一方面,想抽象未知类型时,找特征就行了. 2,与C模板一样,可静态分发特征. 3,可动态分发特征.有时确实需要间接,所以不必运行时"擦除…

比较一个5点的结构对平面的分割

5a61 1 1 0 0 1 0 0 0 1 0 0 1 0 0 1 0 0 计算5a61, 当空间的尺寸是8*8的时候 21 21 5 19 26 26 21 21 21 21 5 19 26 26 21 21 16 16 1 1 8 8 16 16 34 34 14 39 40 1 34 34 34 34 14 39 1 40 34 34 …

LabVIEW中NIGPIB设备与驱动程序不相关的MAX报错

LabVIEW中NIGPIB设备与驱动程序不相关的MAX报错 当插入GPIB-USB设备时,看到了NI MAX中列出该设备,但却显示了黄色警告指示,并且指出Windows没有与您的设备相关的驱动程序。 解决方案 需要安装能兼容的NI-488.2驱动程序。 通过交叉参考以下有…

【C++初阶(八)】C/C++内存管理详解

本专栏内容为:C学习专栏,分为初阶和进阶两部分。 通过本专栏的深入学习,你可以了解并掌握C。 💓博主csdn个人主页:小小unicorn ⏩专栏分类:C 🚚代码仓库:小小unicorn的代码仓库&…

Leetcode刷题详解——不同路径 III

1. 题目链接:980. 不同路径 III 2. 题目描述: 在二维网格 grid 上,有 4 种类型的方格: 1 表示起始方格。且只有一个起始方格。2 表示结束方格,且只有一个结束方格。0 表示我们可以走过的空方格。-1 表示我们无法跨越的…

【读点论文】结构化剪枝

结构化剪枝 在一个神经网络模型中,通常包含卷积层、汇合层、全连接层、非线形层等基本结构,通过这些基本结构的堆叠,最终形成我们所常用的深度神经网络。 早在 1998 年,LeCun 等人使用少数几个基本结构组成 5 层的 LeNet-5 网络&…

Python爬虫过程中DNS解析错误解决策略

在Python爬虫开发中,经常会遇到DNS解析错误,这是一个常见且也令人头疼的问题。DNS解析错误可能会导致爬虫失败,但幸运的是,我们可以采取一些策略来处理这些错误,确保爬虫能够正常运行。本文将介绍什么是DNS解析错误&am…

SpringBoot从零到一项目实战落地博客系统(附源码!!!)

1.项目内容 1.1.页面展示 1.2.博客分类 1.3.面试辅导 1.4.私教带徒 1.5.文章编辑 1.6.后台管理 2.项目架构及技术描述 2.1.本项目用到的技术和框架 项目构建:Mavenweb框架:Springboot数据库ORM:Mybatis数据库连接池: HikariCP分…

[Android]修改应用包名、名称、版本号、Icon以及环境判断和打包

1.修改包名 在Android Studio中更改项目的包名涉及几个步骤: 打开项目结构: 在Android Studio中,确保您处于Android视图模式(在左侧面板顶部有一个下拉菜单可以选择)。 重命名包名: 在项目视图中,找到您的包名&…

论文导读 | 融合大规模语言模型与知识图谱的推理方法

前 言 大规模语言模型在多种自然语言处理相关任务上展现了惊人的能力,如智能问答等,但是其推理能力尚未充分展现。本文首先介绍大模型进行推理的经典方法,然后进一步介绍知识图谱与大模型融合共同进行推理的工作。 文章一:使用思维…

好消息!2023年汉字小达人市级比赛在线模拟题大更新:4个组卷+11个专项,助力孩子更便捷、有效、有趣地备赛

自从《中文自修》杂志社昨天发通知,官宣了2023年第十届汉字小达人市级比赛的日期和安排后,各路学霸们闻风而动,在自己本就繁忙的日程中又加了一项:备赛汉字小达人市级比赛,11月30日,16点-18点。 根据这几年…

创建符合 Web 可访问性标准的 HTML 布局

人们常说网络可访问性是当今万维网的“必须”。“Web 可访问性”一词定义了开发人员需要遵循的一组准则,以使残障人士和 Web 应用程序的交互更加方便。任何网站的内容、UI/UX 设计和布局都应该易于访问。在本文中,Logicify团队为 HTML/CSS 开发人员提供了…

【开题报告】基于uni-app的高校新生报道APP的设计与实现

1.选题背景和意义 随着高校规模的不断扩大和信息化技术的迅速发展,传统的高校新生报道方式已经无法满足日益增长的新生数量和信息处理的需求。传统的线下报道流程通常存在着信息收集效率低、报到流程繁琐等问题,给学生、教职工和管理人员带来了许多不便…