华为、清华等开源超高清、精准文生图模型,0.5秒极速生成!

华为诺亚方舟实验室、清华大学信息科技学院、大连理工、香港大学和Hugging Face的研究人员,联合开源了超高清文生图模型——PIXART-δ。

研究人员将潜在一致性模型(LCM)和创新控制架构ControlNet-Transformer集成在PIXART-δ中,在文生1024*1024高质量图像方面实现了重大技术突破,仅用0.5秒2-4个推理步骤就能完成图像生成,这也比之前的PIXART-{\alpha}模型快了7倍。

此外,PIXART-δ在ControlNet-Transformer帮助下,可以在不同条件下对生成模型的输出进行精确控制,例如,图像的边缘、深度、分割和对象姿势等,有点类似OpenAI的DALL·E 3。

开源地址:https://github.com/PixArt-alpha/PixArt-alpha

论文地址:https://arxiv.org/abs/2401.05252

在线Demo:https://huggingface.co/spaces/PixArt-alpha/PixArt-LCM

图片

潜在一致性模型

LCM是一种用于加速生成模型的全新高效方法,核心技术是将生成模型的反向采样过程,看成是解决一个增强的概率流动常微分方程(PF-ODE)流程

传统的生成模型是通过迭代采样的方式生成图像,需要繁琐的步骤并且每个步骤都需要大量的AI计算资源和时间。

而LCM通过预测增强的PF-ODE方法,将生成过程简化为几个微小步骤,以帮助模型用最快的速度生成高质量的图像。

PF-ODE主要描述了图像生成过程中的概率流动,并将每个数据点映射回其起源点。通过求解增强的PF-ODE,使得LCM可以在潜在空间中生成高质量的图像样本。

图片

然后,LCM利用一致映射函数进行训练。这个函数能够直接从最后一个时间点,推断出任何其他时间点上的样本位置。所以,整个扩散回归过程就可以直接通过求解概率流微分方程实现,而不是像传统模型那样需要多步迭代。

这也是为什么PIXART-δ能用2—4个推理步骤就能生产高精准图像的原因。

ControlNet-Transformer

ControlNet在边缘检测、姿态估计、草图生成、表情表达等方面,展示了对文本生成图像扩散模型内容输出的优秀控制能力。

这是因为其拥有一个可训练的UNet副本,允许对输入条件进行操作,从而控制生成图像的整体布局。

在训练过程中,ControlNet冻结原始的文本到图像扩散模型,只优化可训练的副本。通过跳跃连接将该副本的每个层的输出与原始UNet集成,并使用“零填充卷积”层以避免过多的AI算力负担

图片

但是,ControlNet架构是针对UNet-based扩散模型精心设计的,直接复制到Transformer中效果较差

所以,为了在Transformer架构中实现更好的精准控制能力,研究人员使用了一种创新的ControlNet-Transformer架构,并专门针对Transformer模型进行了优化和量身定制。

图片

ControlNet-Transformer通过在解码器中的每个解码层之间引入跳跃连接,并使用适当的注意力机制,使得生成的图像既具有高质量的细节,又能根据输入的条件进行灵活的调整和控制。

PIXART-δ生成案例赏析

以下是「AIGC开放社区」根据在线Demo生成的图像,整体来说生成效率非常高,语义还原精准,并且支持可视化生成流程控制,例如,生成步骤、图像尺寸、图像类型等,功能强大且易使用。

图片

一只戴着别致绅士帽、穿着夹克的拟人猫,站在秋天的森林中的肖像照。

图片

美丽的女孩,雀斑,笑容灿烂,蓝色的眼睛,姜黄色的短发,深色的妆容,穿着花蓝色背心,柔和的光线,深灰色的背景,写实风格。

图片

桌子上透明罐子里壮观的微小世界,大会堂内部,精心设计,雕刻建筑,解剖,象征,几何和参数化细节,精确的平面线细节,图案,黑暗幻想和难以表达的神秘情绪,技术设计,复杂的超细节,风格化和未来主义和仿生细节,建筑概念,低对比度细节,电影照明,8K,虚幻,逼真,超现实

图片

一艘海盗船被困在宇宙漩涡星云中,在宇宙海滩漩涡引擎中渲染,体积照明,壮观,环境光,光污染,电影氛围,新艺术风格,4K,复杂的细节和纹理。

图片

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/671410.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

docker 部署springboot项目详细步骤

Docker 是一个开源的应用容器引擎,它允许开发者打包他们的应用以及依赖包到一个可移植的容器中,然后发布到任何流行的 Linux 机器上,也可以实现虚拟化。容器是完全使用沙箱机制,相互之间不会有任何接口。在本教程中,我…

【LeetCode: 73. 矩阵置零 + 矩阵】

🚀 算法题 🚀 🌲 算法刷题专栏 | 面试必备算法 | 面试高频算法 🍀 🌲 越难的东西,越要努力坚持,因为它具有很高的价值,算法就是这样✨ 🌲 作者简介:硕风和炜,…

【XR806开发板试用】基于鸿蒙L0系统的智能WIFI台灯开发(简易版)

【XR806开发板试用】基于鸿蒙L0系统的智能WIFI台灯开发(简易版) 本文参与极术社区的《基于安谋科技STAR-MC1的XR806开发板试用》活动。 一、环境搭建及固件编译 环境搭建的过程就不说了,参考官方的教程,以下提及需要注意的几个点。 1.在wind…

spring boot学习第十一篇:发邮件

1、pom.xml文件内容如下&#xff08;是我所有学习内容需要的&#xff0c;不再单独分出来&#xff0c;包不会冲突&#xff09;&#xff1a; <?xml version"1.0" encoding"UTF-8"?> <project xmlns"http://maven.apache.org/POM/4.0.0"…

使用Python语言生成区块链地址

# 单次运行 import binascii import sha3 from ecdsa import SigningKey, SECP256k1priv SigningKey.generate(curveSECP256k1) # 生成私钥 pub priv.get_verifying_key() # 生成公钥keccak sha3.keccak_256() keccak.update(pub.to_string()) # keccak_256哈希运算 addr…

【高频SQL基础题】1084.销售分析Ⅲ

题目&#xff1a; 表&#xff1a; Product ----------------------- | Column Name | Type | ----------------------- | product_id | int | | product_name | varchar | | unit_price | int | ----------------------- product_id 是该表的主键&#xff08…

vue配置开发环境和生产环境

在与src文件夹同级的地方增加两个文件 .env.development .env.production配置development和production两个文件 在.env.development中写&#xff1a; NODE_ENV development VUE_APP_NUM dev //VUE_APP_自己取名字在.env.production中写&#xff1a; NODE_ENV production…

idea后端几个层

1.BO层 BO&#xff08;Business Object&#xff09;层通常被称为业务对象层&#xff0c;负责处理业务逻辑。BO 层在整个应用程序中起到了承上启下的作用&#xff0c;连接了持久化层&#xff08;DAO层&#xff09;和展示层&#xff08;Service层&#xff09;。 2.DAO层 DAO&…

【react】如何拦截第三方插件自发的请求

我们需要猜测一下&#xff0c;第三方是用什么方式请求的&#xff1a; 一般是第1种。 1、使用原生的XMLHttpRequest // 创建一个原始的 XMLHttpRequest 对象 const originalXhrOpen XMLHttpRequest.prototype.open;XMLHttpRequest.prototype.open function (method, url, as…

linux k8s 源码编译及单集群测试

目录 概述实践安装插件docker 在线安装containerd安装二进制安装yum安装修改containder配置文件 cnietcdrsyncgo设置golang代理 安装CFSSL下载kubernetes代码编译启动本地单节点集群问题k8s没有被正常启动该如何k8s正常启动日志测试 结束 概述 此文详细说明在 centos 7上编译 k…

英语学习——16组英语常用短语

第1组&#xff1a;look look at 看 look for 寻找 look up 查阅&#xff0c;向上看 look out 向外看&#xff0c;小心 look after 照顾 look like 看起来像 look through 浏览 look into 向里看 look around 环顾四周 look forward to 期盼 look ahead 向前看 Look…

AI应用开发-python实现redis数据存储

AI应用开发相关目录 本专栏包括AI应用开发相关内容分享&#xff0c;包括不限于AI算法部署实施细节、AI应用后端分析服务相关概念及开发技巧、AI应用后端应用服务相关概念及开发技巧、AI应用前端实现路径及开发技巧 适用于具备一定算法及Python使用基础的人群 AI应用开发流程概…

大模型发展

周鸿祎关于大模型的几点见解&#xff1a; 1、大模型无处不在&#xff0c;成为数字系统标配 2、开源大模型爆发 3、 “小模型”涌现&#xff0c;运行在更多终端 4、大模型企业级市场崛起&#xff0c;向产业化、垂直化方向发展 5、Agent智能体激发大模型潜能&#xff0c;成为…

QT上位机:串口调试助手

前言 上位机的简单编写可以帮我们测试并完善平台&#xff0c;QT作为一款跨平台的GUI开发框架&#xff0c;提供了非常丰富的常用串口api。本文先从最简单的串口调试助手开始&#xff0c;编写平台软件的串口控制界面 工程配置 QT 串口通信基于QT的QSerialPort类&#xff0c;先在…

Vue动态组件<component>传递变量

Demo Vue的动态组件<component>是一个强大的模块&#xff0c;通过动态组件可以让页面组件随意切换&#xff0c;不需要通过路由定位&#xff0c;它在使用过程和普通自定义的组件基本一致&#xff0c;如下像下方给动态组件传递props值 <template><keep-alive>…

在java使用try需要注意的

在Java中使用try块时&#xff0c;有一些注意事项和最佳实践&#xff0c;以确保代码的健壮性和可读性。以下是一些需要注意的事项&#xff1a; 资源管理&#xff1a; 如果在try块中打开了某些资源&#xff08;例如文件、网络连接、数据库连接&#xff09;&#xff0c;确保在fina…

【halcon】write_image 图片保存

前言 write_image 是一个可以用来保存图片的算子&#xff0c;可以将Image对象保存成各种格式的图片。还可以对图片进行压缩。 正文 参数&#xff1a; Image&#xff08;输入对象&#xff09;&#xff1a; 输入图像或输入图像的数组。支持的像素类型包括byte、direction、cy…

18:JavaBean简介及其在表单处理与DAO设计模式中的应用-Java Web

目录 18.1 JavaBean简介18.2 JavaBean与表单处理18.3 JavaBean的保存范围18.4 JavaBean在DAO设计模式中的应用18.5 JavaBean与表单处理的完整代码示例18.6 JavaBean在DAO设计模式中的应用示例 在Java Web开发领域&#xff0c;JavaBean作为数据封装和交互的核心组件&#xff0c;…

判断大端序还是小端序

1.取值比较法 ​ ​ #include <windows.h> #include <stdio.h>int main(int argc,char *argc[]) {Dword dwSmallnum Ox01020304;/定义一个四字节的数&#xff08;十六进制&#xff09;if(*(BYTE*)&dwSmallnum Ox04)/如果第一个字节为04{printf("Small …

druid配置wall导致无法批量sql

1、现象 2、原配置 spring:autoconfigure:exclude: com.alibaba.druid.spring.boot.autoconfigure.DruidDataSourceAutoConfiguredatasource:druid:stat-view-servlet:enabled: trueloginUsername: ***loginPassword: ***allow:web-stat-filter:enabled: truefilter:wall:conf…