训练效率提升40倍!开源图片生3D模型,Stable Zero123来啦

12月14日,著名生成式AI开源平台Stability.ai在官网开源了,图片生成高质量3D模型——Stable Zero123。

Stable Zero123是基于今年3月,丰田研究院和哥伦比亚大学联合开源的Zero123模型开发而成。主要通过更改渲染数据集和分数蒸馏对模型进行了大幅度优化,不仅生成的3D模型效果比Zero123更好,训练效率也提升了40倍。

值得一提的是,Stable Zero123可以与Stability.ai最新开源的高精准图片模型SDXL相结合使用,相当于3D模型扩展插件。

Stable Zero123开源地址:https://huggingface.co/stabilityai/stable-zero123

zero123开源地址:https://github.com/cvlab-columbia/zero123

zero123论文:https://arxiv.org/abs/2303.11328

图片

image.png

Stable Zero123生成的3D模型示例

高质量数据集

高质量数据集已成为预训练大模型的重要环节之一,甚至超过了更多的神经元。

所以,Stability.ai对一个超过1000万个3D模型数据集Objaverse-XL进行了过滤,只保留高质量、精准、数据标注准确的模型。

图片

这可以让Stable Zero123在生成的过程中更好的理解和生成3D模型。Zero123的最新模型XL也是基于该数据集训练而成。

Objaverse-XL地址:https://github.com/allenai/objaverse-xl

图片

Stable Zero123简单介绍

由于Stable Zero123暂时没有开放论文,只能用Zero123为大家解读了。

其实这两个模型挺有意思的是互相学习。Zero123是基于Stability.ai开源的文生图模型Stable Diffusion进行了创新、微调,使其学会了控制相机的相对视角变换,然后基于视角的扩散方法进行去噪,最后使用3D重建方法进行模型重塑。

学习控制相机视角:Zero123通过一个合成数据集微调预训练了Stable Diffusion模型,使其学会相对相机视角变换的控制,而不破坏模型中的其他表示。

基于视角的扩散:将图像的CLIP嵌入与相对视角变换拼接作为条件信息,指导去噪过程。同时也将输入图像与正在去噪的图像拼接,帮助保持目标物体的识别度和细节。

图片

两款模型生成效果的细节对比

3D模型重建:通过SJC优化一个体素辐射场表示,并使用基于视角的扩散模型进行监督。随机采样视角,利用Zero123合成对应视角下的图像,计算图像与体素渲染结果之间的得分,更新体素场。

这就能使Stable Diffusion模型输出的丰富2D纹理和形状,被完美地注入到了3D建模的过程中,形成3D模型。

目前,Stable Zero123模型主要用于研究,未来会开放商用。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/221920.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【复杂gRPC之Java调用go】

1 注意点 一般上来说如果java调用java的话,我们可以使用springcloud来做,而面对这种跨语言的情况下,gRPC就展现出了他的优势。 代码放在这了,请结合前面的go服务器端一起使用 https://gitee.com/guo-zonghao/java-client-grpc /…

实战章节:在Linux上部署各类软件

详细资料见文章的资源绑定 一、前言 1.1 为什么学习各类软件在Linux上的部署 在前面,我们学习了许多的Linux命令和高级技巧,这些知识点比较零散,同学们跟随着课程的内容进行练习虽然可以基础掌握这些命令和技巧的使用,但是并没…

算法-只出现一次的数字集合

前言 仅记录学习笔记,如有错误欢迎指正。 题目 记录一道面试过的题目 题目如下: 给定一个数组,内容为1-n的数字,其中每个数字只会出现一次或者多次,请在时间复杂度O(n),空间复杂度O(1)的条件下找出所有出现一次的数…

事务隔离级别:保障数据库并发事务的一致性与性能

目录 引言 1. 事务隔离级别概述 2. 读未提交隔离级别 3. 读已提交隔离级别 4. 可重复读隔离级别 5. 串行化隔离级别 6. 保障事务隔离级别的机制 7. 如何选择合适的隔离级别 8. 结语 引言 在数据库管理系统(DBMS)中,事务隔离级别是一…

Redisson分布式锁原理分析

1.Redisson实现分布式锁 在分布式系统中,涉及到多个实例对同一资源加锁的情况,传统的synchronized、ReentrantLock等单进程加锁的API就不再适用,此时就需要使用分布式锁来保证多服务之间加锁的安全性。 常见的分布式锁的实现方式有&#xff…

【SpringBoot2】idea 上 gradle build 报 lombok 注释类有 “错误: 找不到符号“

jwensh2023.12.11 问题 idea springboot 2.7 gradle 7.6 的 build.gradle 中引入了 lombok implementation group: org.projectlombok, name: lombok, version: 1.18.2 在 pojo 上使用 Data、AllArgsConstructor、NoArgsConstructor Data AllArgsConstructor NoArgsConstruc…

PyTorch 模型训练性能大揭秘:从基础到高级技巧一网打尽!

PyTorch 是一个开源的 Python 机器学习库,基于Torch,用于自然语言处理等应用程序。 PyTorch既可以看作加入了GPU支持的numpy,也可以看成一个拥有自动求导功能的强大的深度神经网络,同时它也是大模型开发的首选工具。 《PyTorch模…

不用再找,这是大模型 LLM 微调经验最全总结

大家好,今天对大模型微调项目代码进行了重构,支持ChatGLM和ChatGLM2模型微调的切换,增加了代码的可读性,并且支持Freeze方法、Lora方法、P-Tuning方法、「全量参数方法」 微调。 PS:在对Chat类模型进行SFT时&#xff…

提升前端效率:掌握防抖与节流

目录 概念 代码实现 区别 应用场景 概念 当涉及到处理高频事件时,防抖(Debounce)和节流(Throttle)成为关键的工具。它们的作用是优化函数的执行频率,特别是在处理浏览器事件(如resize、scro…

UDP网络编程其他相关事项

netstat指令 netstat -an 可以查看当前主机网络情况,包括端口监听情况和网络连接情况。 netstat -an | more 可以分页显示。 要求在dos控制台下执行。 说明:(1)Listening表示某个端口在监听;(2&#xf…

binkw32.dll丢失怎么办?这5个方法都可以解决binkw32.dll丢失问题

binkw32.dll文件是什么? binkw32.dll是一个动态链接库文件,它是Windows操作系统中的一个重要组件。它包含了许多用于处理多媒体文件的函数和资源,如视频、音频等。当我们在电脑上打开或播放某些多媒体文件时,系统会调用binkw32.d…

显示器件是什么

显示器件 电子元器件百科 文章目录 显示器件前言一、显示器件是什么二、显示器件的类别三、显示器件的应用实例四、显示器件的作用原理总结前言 显示器件根据不同的技术原理和应用领域,具有不同的特点和优势,可适用于电子产品、电视、计算机显示器、手持设备、汽车仪表盘等…

绿盟 SAS堡垒机 local_user.php 权限绕过漏洞复现

绿盟 SAS堡垒机 local_user.php 权限绕过漏洞复现 一、 产品简介二、漏洞概述三、 复现环境四、漏洞复现五、小龙检测 免责声明:请勿利用文章内的相关技术从事非法测试,由于传播、利用此文所提供的信息或者工具而造成的任何直接或者间接的后果及损失&…

Codeforces Round 774 (Div. 2) (D树形dp上司的舞会 C二进制枚举+快速幂? E打表求每个底数不同贡献)

A - Square Counting 直接能填就填n*n就填&#xff0c;不然全0啥的即可 #include<bits/stdc.h> using namespace std; const int N 3e510,mod998244353; #define int long long typedef long long LL; typedef pair<int, int> PII; typedef unsigned long long …

全维度构建核心竞争优势,极智嘉(Geek+)连获六项大奖

近日&#xff0c;全球仓储机器人引领者极智嘉(Geek)一举斩获国内外六大重磅奖项&#xff0c;在技术实力、出海成绩到人才战略等多个维度&#xff0c;再度向大众展示了行业标杆的强劲实力。 首先在技术实力上&#xff0c;此前极智嘉与罗马尼亚医药电商Dr.MAX达成合作&#xff0…

测试用例设计方法六脉神剑——第四剑:石破天惊,功能图法攻阵

1 引言 前面几篇文章为我们讲述了因果图、判定表、正交试验等几种方法&#xff0c;主要是针对于不同条件输入输出的组合进行测试&#xff0c;但在实际需求中&#xff0c;我们也常会遇到需要对被测对象的状态流转进行验证的情况&#xff0c;此时前面几种方法将不再适用&#xf…

美国访问学者陪读签证怎么申请?

美国访问学者陪读签证是许多前往美国深造的学者及其家属关注的重要问题。如何申请这一签证&#xff0c;一直以来都是备受关注的话题。下面知识人网小编将为您介绍一下美国访问学者陪读签证的申请流程。 首先&#xff0c;申请人需要了解访问学者陪读签证的基本要求。通常情况下&…

马尔科夫预测模型(超详细,案例代码)

概述 马尔科夫预测模型是一种基于马尔科夫过程的预测方法。马尔科夫过程是一类具有马尔科夫性质的随机过程&#xff0c;即未来的状态只依赖于当前状态&#xff0c;而与过去状态无关。这种过程通常用状态空间和状态转移概率矩阵来描述。 在马尔科夫预测模型中&#xff0c;系统被…

Java打印堆栈信息

1、简要介绍 jmap&#xff1a;可以输出所有内存中对象的工具&#xff0c;甚至可以将VM 中的heap&#xff0c;以二进制输出成文本。 2、命令格式 jmap [ option ] pidjmap [ option ] executable corejmap [ option ] [server-id]remote-hostname-or-IP3、参数说明 1)、optio…

Windows句柄与内核对象

内核对象 基本概念 例如&#xff0c;访问令牌&#xff0c;事件对象&#xff0c;文件对象&#xff0c;文件映射对象&#xff0c;I/O完成端口对象&#xff0c;作业对象&#xff0c;邮件槽对象&#xff0c;互斥量对象&#xff0c;管道&#xff0c;进程对象&#xff0c;信号量对象…