OpenAI年底上新,单卡1分钟生成3D点云,text-to 3D告别高算力消耗时代

8b712bfb5bfc2942b80a2a93ecd52f9b.jpeg

来源:大数据文摘授权转载自HyperAI超神经

作者:三羊

OpenAI 年底冲业绩,半个多月前发布的 ChatGPT 广大网友还没玩明白,近日又悄么发布了另一利器--可以依据文本提示,直接生成 3D 点云的 Point·E。

text-to-3D:用对方法,一个顶俩

3D 建模想必大家都不陌生,近年来,在电影制作、视频游戏、工业设计、VR 及 AR 等领域中,都可以看到 3D 建模的影子。

然而,借助人工智能创建逼真的 3D 图像,仍然是一个耗时耗力的过程,以 Google DreamFusion 为例,给定文本生成 3D 图像通常需要多个 GPU、运行数小时。

96a57fc3e5a2834166d8b5bc65f41ce0.gif

给定一个描述,DreamFusion 生成高保真 3D 物体

通常意义上,文本到 3D 合成的方法分为两类:

方法 1:直接在成对的 (text, 3D) 数据或无标签的 3D 数据上训练生成模型。

此类方法虽然可以利用现有的生成模型方法,有效地生成样本,但由于缺乏大规模 3D 数据集,因此很难扩展到复杂的文本提示。

方法 2:利用预先训练好的 text-to-image 模型,优化可区分的 3D 表征。

此类方法通常能够处理复杂多样的文本提示,但每个样本的优化过程都代价高昂。此外,由于缺乏强大的 3D prior,此类方法可能会陷入 local minima(无法与有意义或连贯的 3D 目标一一对应)。

Point·E 结合了 text-to-image 模型以及 image-to-3D 模型,综合以上两种方法的优势,进一步提升了 3D 建模的效率,只需要一个 GPU、一两分钟即可完成文本到 3D 点云的转换。

原理解析:3 步生成 3D 点云

Point·E 中,text-to-image 模型利用了大型语料库 (text, image pair),使其对复杂的文本提示也能处理得当;image-to-3D 模型则是在一个较小的数据集 (image, 3D pair) 上训练的。

用 Point·E 依据文本提示生成 3D 点云的过程分为三个步骤:

1、依据文本提示,生成一个合成视图 (synthetic view)

2、依据合成视图,生成 coarse point cloud (1024 point)

3、基于低分辨率点云和合成视图,生成 fine point cloud (4096 Point)

5229b040decb65038cb1f5b2c4e65eec.jpegPoint·E 流程概览

由于数据格式和数据质量对训练结果影响巨大,Point·E 借助 Blender,将所有训练数据都转换为了通用格式。

Blender 支持多种 3D 格式,并配有优化的渲染 engine。Blender 脚本将模型统一为一个 bounding cube,配置一个标准的 lighting 设置,最后使用 Blender 内置的实时渲染 engine 导出 RGBAD 图像。 

"""
Script to run within Blender to render a 3D model as RGBAD images.Example usageblender -b -P blender_script.py -- \--input_path ../../examples/example_data/corgi.ply \--output_path render_outPass `--camera_pose z-circular-elevated` for the rendering used to compute
CLIP R-Precision results.The output directory will include metadata json files for each rendered view,
as well as a global metadata file for the render. Each image will be saved as
a collection of 16-bit PNG files for each channel (rgbad), as well as a full
grayscale render of the view.
"""

Blender 脚本部分代码:通过运行脚本,将 3D 模型统一渲染为 RGBAD 图像

完整脚本详见:

https://github.com/openai/point-e/blob/main/point_e/evals/scripts/blender_script.py

过往 text-to-3D AI 横向对比

近两年来,涌现了众多关于 text-to-3D 模型生成的相关探索,Google、NVIDIA 等大厂也纷纷推出了自己的 AI。

我们收集汇总了 3 个 text-to-3D 合成的 AI,供大家横向对比差异。

DreamFields

发布机构:Google

发布时间:2021 年 12 月

项目地址:https://ajayj.com/dreamfields

DreamFields 结合了神经渲染 (neural rendering) 与多模态图像及文本表征,仅依据文本描述,就可以可以在没有 3D 监督的情况下,生成各种各样 3D 物体的形状和颜色。

182a8dc77c911df4db6ce900c1717451.jpegDreamFields 从 4 个视角分别渲染的示例

DreamFields 生成 3D 物体的过程中,借鉴了在大型文本图像数据集上预训练过的 image-text model,并对源自多视角的 Neural Radiance Field 进行了优化,这使得预训练 CLIP 模型渲染的图像,在目标文本下取得了良好的效果。

DreamFusion

发布机构:Google

发布时间:2022 年 9 月

项目地址:https://dreamfusion3d.github.io/

DreamFusion 可以借助预训练 2D text-to-image diffusion model,实现 text-to-3D synthesis。

DreamFusion 引入了一个基于概率分布蒸馏 (probability density distillation) 的 loss,使 2D diffusion model 能够作为参数图像生成器 (parametric image generator) 优化的 prior。

926a3eb992dbe7a75a4a35db7c1a8979.jpeg输入文本提示:a DSLR photo of a peacock on a surfboar,DreamFusion 生成 3D 物体

通过在与 DeepDream 类似的程序中应用该 loss,Dreamfusion 优化了一个随机初始化的 3D 模型(一个 Neural Radiance Field 或者 NeRF),通过梯度下降法使其从随机角度的 2D 渲染达到一个相对较低的 loss。

Dreamfusion 不需要 3D 训练数据,也无需修改 image diffusion model,证明了预训练 image diffusion model 作为 prior 的有效性。

Magic3D

发布机构:NVIDIA

发布时间:2022 年 11 月

项目地址:deepimagination.cc/Magic3D/

Magic3D 是一个 text-to-3D 内容的创建工具,可用于创建高质量的 3D mesh model。利用 image conditioning 技术以及基于文本提示的编辑方法,Magic3D 提供了控制 3D 合成的新方法,为各种创意应用开辟了新的途径。

7aff2aad290f310706682f1dc88df8d0.jpegMagic3D 结构概述:以 coarse-to-fine 的方式,依据输入的文本提示,生成高分辨率的 3D 内容

过程包括两个阶段:

阶段 1:使用低分辨率的 diffusion prior 获得一个 coarse model,并用 hash grid 和 sparse acceleration structure 进行加速。

阶段 2:使用从粗略神经表征 (coarse neural representation) 初始化的 textured mesh model,通过高效的可微分渲染器与高分辨率的 latent diffusion 模型交互进行优化。

技术进步仍需突破局限

text-to 3D 的 AI 陆续面世,但基于文本生成 3D 合成尚处于早期发展阶段,业内还没有一套公认的 Benchmark,能用来更公正地评估相关任务。

Point·E 对于 fast text-to 3D 合成而言,具有重大意义,它极大提升了处理效率,降低了算力消耗。

但不可否认,Point·E 仍然具有一定的局限性,比如 pipeline 需要合成渲染,生成的 3D 点云分辨率较低,不足以捕捉细粒度的形状或纹理等。

关于 text-to 3D 合成的未来,你怎么看?未来的发展趋势又会怎样?欢迎评论区留言讨论。

未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)大脑研究计划,构建互联网(城市)大脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。每日推荐范围未来科技发展趋势的学习型文章。目前线上平台已收藏上千篇精华前沿科技文章和报告。

  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

f3e4397e93ec7ec3350cbb1e6fd120b7.jpeg

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/481227.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

机器学习相关从业者如何兼顾理论与工程能力

理论与工程首先,小夕说一下自己目前对理论与工程的理解吧,这也是小夕当前研究理论和熟练工程时主要的出发点。(仅为个人思考,请勿当成真理理论注重的是学科中各个知识点的大一统,将各种散乱的算法、现象、技巧来归结到…

万字拆解!追溯ChatGPT各项能力的起源

导语一篇十分深度剖析GPT系列模型的文章,作者翻译成了中文,在这里分享给大家。来源:李rumor作者:符尧, yao.fued.ac.uk,爱丁堡大学 (University of Edinburgh) 博士生,本科毕业于北京大学与 彭昊&#xff0…

用excel做数据分析

我们先来看看某公司全国产品销售的报表(截取了部分) 某公司全国产品销售的报表通过货品销售数据案例,需反映如下结果: 货品销售情况货品交货情况销售货品结构构成货品销售区域构成货品按时交货与合格品综合评价 我们使用 excel 进…

消失了一周的小夕在玩什么啦?

啊,你们的小夕回来啦~有没有被吓到( ̄∇ ̄)0小夕在玩什么小夕,终于,在今天,把,各种deadline,完成了(Д )首先,小夕要像大家深深的说一声谢谢啦。好多天没有打开订阅号的后台…

第四届泰迪杯数据挖掘大赛

<script src"//g.alicdn.com/aliyun/goldeneye-deploy/0.0.1/static/goldeneye.js"></script> <link rel"stylesheet" href"//at.alicdn.com/t/font_422887_vrqbpml6oos.css"><!--top-header begin-->云栖社区博客问答聚…

一般化机器学习与神经网络

0前言机器学习的初学者很容易被各种模型搞得晕头转向。如果扎进各种模型的细节无法自拔的话&#xff0c;可能很难发现一般化的框架。如果你觉得神经网络是非常不同的机器学习模型&#xff0c;如果你觉得神经网络的各种新名词让你觉得这完全就是一片新天地&#xff0c;那么可能你…

扩散模型再发力!图灵奖得主Hinton团队提出:图像和视频全景分割新框架

来源&#xff1a;机器之心作者&#xff1a;Ting Chen 等 编辑&#xff1a;赵阳本文的创新点一方面在于能够在大型全景掩码上训练扩散模型&#xff0c;一方面在于可以同时适配图片和流媒体场景。全景分割是一项基本的视觉任务&#xff0c;该任务旨在为图像的每个像素指定语义标…

经典的K-means聚类算法

原理部分主要来自大牛zouxy09和trnadomeet两个人的博客&#xff1b;后面的代码详细讲解为自己精心编写 一、概述 非监督学习的一般流程是&#xff1a;先从一组无标签数据中学习特征&#xff0c;然后用学习到的特征提取函数去提取有标签数据特征&#xff0c;然后再进行分类器的训…

《Cell》发现免疫系统的“武器研发实验室”

来源&#xff1a;生物通如果B细胞是免疫系统的兵工厂&#xff0c;制造抗体来中和有害的病原体&#xff0c;那么被称为生发中心的微小生物结构就是它的武器开发设施。.淋巴结的生发中心簇充满了成熟的B细胞(红色)&#xff0c;点缀着进化程度较低的B细胞(绿色)。 如果B细胞是免…

机器学习从理论到工程的第一步-编程语言篇

前言在文章《机器学习从业者如何兼顾理论与工程》中&#xff0c;小夕对编程语言的选择进行了小小建议。鉴于有些同学对小夕建议的“主python&#xff0c;辅C&#xff0c;备用matlab和java”疑问较大&#xff0c;小夕在此详细解释一下&#xff0c;也欢迎大家补充新观点哦。为什么…

聚类算法当中的K-means算法如何去做天猫淘宝的推广任务

5 人赞同了该回答figure data-size"normal">data-size"normal">这个入口是全网人气新品池&#xff0c;我们今天所获取到的数据都是来源于这里。无论是C店还是B店&#xff0c;统统都有机会进来。这个平台最有价值的数据&#xff0c;就是可以告诉我们自…

通过双重众包预测 RNA 降解的深度学习模型

编辑 | 萝卜皮基于信使 RNA (mRNA) 的药物具有巨大的潜力&#xff0c;正如它们作为 COVID-19 疫苗的快速部署所证明的那样。然而&#xff0c;mRNA 分子的全球分布受到其热稳定性的限制&#xff0c;这从根本上受限于 RNA 分子对称为在线水解的化学降解反应的固有不稳定性。预测 …

线性代数应该这样讲(一)

前言小夕为什么要讲线性代数呢&#xff1f;因为有人已经做了机器学习一段时间了&#xff0c;竟然认为矩阵就是用来存储数据的。小夕表示非常震惊。而深刻透彻的理解核函数、PCA、LSI、谱聚类等以空间映射为理论核心的机器学习理论时&#xff0c;靠大学里教的那一套线性代数&…

震惊!丧心病狂的夕小瑶推出新一轮写作计划!

时至今日&#xff0c;距离小夕发布的第一篇正式文章已经过去整三个月啦。今天又回头看了一下自己写的第一篇文章&#xff0c;不禁有点感慨“文风”变了这么多&#xff0c;甚至有点受不了第一篇文章中的萌气了\(//∇//)\然后文章还写的不怎么样。。。虽然第一篇文章写的好差&…

LeCun预言的自监督模型来了:首个多模态高性能自监督算法,语音、图像文本全部SOTA...

来源&#xff1a;机器之心编辑&#xff1a;nhyilin人类似乎对不同的学习模式有着相似的认知&#xff0c;机器也应该如此&#xff01;>>>>自监督学习能在各种任务中学习到分层特征&#xff0c;并以现实生活中可使用的海量数据作为资源&#xff0c;因此是走向更通用人…

史上最清楚的BP算法详解

前馈神经网络 在文章《逻辑回归到神经网络》&#xff08;以下简写《LR到NN》&#xff09;中&#xff0c;小夕为大家描述了一个从逻辑回归延伸到神经网络的过程。在《一般化机器学习与神经网络》中&#xff0c;小夕阐述了神经网络的一般性。这一篇会完全进入神经网络的状态&…

基于主动学习算法减少人工标注量,提升文本标注效率的方案探究

基于主动学习算法减少人工标注量&#xff0c;提升文本标注效率的方案探究阅读 451收藏 232018-06-26原文链接&#xff1a;yq.aliyun.comOPPO技术开放日第三期&#xff0c;未来的探索 AI&AR的实践应用juejin.im项目地址: https://github.com/crownpku/Chinese-Annotator 自…

具有生物启发训练方法的物理深度学习:物理硬件的无梯度方法

编辑 | 绿萝对人工智能不断增长的需求推动了对基于物理设备的非常规计算的研究。虽然此类计算设备模仿了大脑启发的模拟信息处理&#xff0c;但学习过程仍然依赖于为数字处理优化的方法&#xff0c;例如反向传播&#xff0c;这不适合物理实现。在这里&#xff0c;来自日本 NTT …

BP算法是从天上掉下来的吗?

第二个标题&#xff1a;一般而特殊的前馈神经网络前馈神经网络在文章《逻辑回归到神经网络》&#xff08;以下简写《LR到NN》&#xff09;中&#xff0c;小夕为大家描述了一个从逻辑回归延伸到神经网络的过程。在《一般化机器学习与神经网络》中&#xff0c;小夕阐述了神经网络…

深度学习如何应用在广告、推荐及搜索业务?阿里妈妈实践案例解读

</span></ul><div class"markdown-body"><div id"meta_content" class"rich_media_meta_list"> </div>阿里妹导读&#xff1a;靖世&#xff0c;阿里妈妈精准展示技术研究员。2011 年&#xff0c;刚进阿里的他提出…