华为、清华等开源超高清、精准文生图模型,0.5秒极速生成!

华为诺亚方舟实验室、清华大学信息科技学院、大连理工、香港大学和Hugging Face的研究人员,联合开源了超高清文生图模型——PIXART-δ。

研究人员将潜在一致性模型(LCM)和创新控制架构ControlNet-Transformer集成在PIXART-δ中,在文生1024*1024高质量图像方面实现了重大技术突破,仅用0.5秒2-4个推理步骤就能完成图像生成,这也比之前的PIXART-{\alpha}模型快了7倍。

此外,PIXART-δ在ControlNet-Transformer帮助下,可以在不同条件下对生成模型的输出进行精确控制,例如,图像的边缘、深度、分割和对象姿势等,有点类似OpenAI的DALL·E 3。

开源地址:https://github.com/PixArt-alpha/PixArt-alpha

论文地址:https://arxiv.org/abs/2401.05252

在线Demo:https://huggingface.co/spaces/PixArt-alpha/PixArt-LCM

图片

潜在一致性模型

LCM是一种用于加速生成模型的全新高效方法,核心技术是将生成模型的反向采样过程,看成是解决一个增强的概率流动常微分方程(PF-ODE)流程

传统的生成模型是通过迭代采样的方式生成图像,需要繁琐的步骤并且每个步骤都需要大量的AI计算资源和时间。

而LCM通过预测增强的PF-ODE方法,将生成过程简化为几个微小步骤,以帮助模型用最快的速度生成高质量的图像。

PF-ODE主要描述了图像生成过程中的概率流动,并将每个数据点映射回其起源点。通过求解增强的PF-ODE,使得LCM可以在潜在空间中生成高质量的图像样本。

图片

然后,LCM利用一致映射函数进行训练。这个函数能够直接从最后一个时间点,推断出任何其他时间点上的样本位置。所以,整个扩散回归过程就可以直接通过求解概率流微分方程实现,而不是像传统模型那样需要多步迭代。

这也是为什么PIXART-δ能用2—4个推理步骤就能生产高精准图像的原因。

ControlNet-Transformer

ControlNet在边缘检测、姿态估计、草图生成、表情表达等方面,展示了对文本生成图像扩散模型内容输出的优秀控制能力。

这是因为其拥有一个可训练的UNet副本,允许对输入条件进行操作,从而控制生成图像的整体布局。

在训练过程中,ControlNet冻结原始的文本到图像扩散模型,只优化可训练的副本。通过跳跃连接将该副本的每个层的输出与原始UNet集成,并使用“零填充卷积”层以避免过多的AI算力负担

图片

但是,ControlNet架构是针对UNet-based扩散模型精心设计的,直接复制到Transformer中效果较差

所以,为了在Transformer架构中实现更好的精准控制能力,研究人员使用了一种创新的ControlNet-Transformer架构,并专门针对Transformer模型进行了优化和量身定制。

图片

ControlNet-Transformer通过在解码器中的每个解码层之间引入跳跃连接,并使用适当的注意力机制,使得生成的图像既具有高质量的细节,又能根据输入的条件进行灵活的调整和控制。

PIXART-δ生成案例赏析

以下是「AIGC开放社区」根据在线Demo生成的图像,整体来说生成效率非常高,语义还原精准,并且支持可视化生成流程控制,例如,生成步骤、图像尺寸、图像类型等,功能强大且易使用。

图片

一只戴着别致绅士帽、穿着夹克的拟人猫,站在秋天的森林中的肖像照。

图片

美丽的女孩,雀斑,笑容灿烂,蓝色的眼睛,姜黄色的短发,深色的妆容,穿着花蓝色背心,柔和的光线,深灰色的背景,写实风格。

图片

桌子上透明罐子里壮观的微小世界,大会堂内部,精心设计,雕刻建筑,解剖,象征,几何和参数化细节,精确的平面线细节,图案,黑暗幻想和难以表达的神秘情绪,技术设计,复杂的超细节,风格化和未来主义和仿生细节,建筑概念,低对比度细节,电影照明,8K,虚幻,逼真,超现实

图片

一艘海盗船被困在宇宙漩涡星云中,在宇宙海滩漩涡引擎中渲染,体积照明,壮观,环境光,光污染,电影氛围,新艺术风格,4K,复杂的细节和纹理。

图片

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/671410.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【LeetCode: 73. 矩阵置零 + 矩阵】

🚀 算法题 🚀 🌲 算法刷题专栏 | 面试必备算法 | 面试高频算法 🍀 🌲 越难的东西,越要努力坚持,因为它具有很高的价值,算法就是这样✨ 🌲 作者简介:硕风和炜,…

使用Python语言生成区块链地址

# 单次运行 import binascii import sha3 from ecdsa import SigningKey, SECP256k1priv SigningKey.generate(curveSECP256k1) # 生成私钥 pub priv.get_verifying_key() # 生成公钥keccak sha3.keccak_256() keccak.update(pub.to_string()) # keccak_256哈希运算 addr…

vue配置开发环境和生产环境

在与src文件夹同级的地方增加两个文件 .env.development .env.production配置development和production两个文件 在.env.development中写: NODE_ENV development VUE_APP_NUM dev //VUE_APP_自己取名字在.env.production中写: NODE_ENV production…

linux k8s 源码编译及单集群测试

目录 概述实践安装插件docker 在线安装containerd安装二进制安装yum安装修改containder配置文件 cnietcdrsyncgo设置golang代理 安装CFSSL下载kubernetes代码编译启动本地单节点集群问题k8s没有被正常启动该如何k8s正常启动日志测试 结束 概述 此文详细说明在 centos 7上编译 k…

QT上位机:串口调试助手

前言 上位机的简单编写可以帮我们测试并完善平台,QT作为一款跨平台的GUI开发框架,提供了非常丰富的常用串口api。本文先从最简单的串口调试助手开始,编写平台软件的串口控制界面 工程配置 QT 串口通信基于QT的QSerialPort类,先在…

【halcon】write_image 图片保存

前言 write_image 是一个可以用来保存图片的算子,可以将Image对象保存成各种格式的图片。还可以对图片进行压缩。 正文 参数: Image(输入对象): 输入图像或输入图像的数组。支持的像素类型包括byte、direction、cy…

druid配置wall导致无法批量sql

1、现象 2、原配置 spring:autoconfigure:exclude: com.alibaba.druid.spring.boot.autoconfigure.DruidDataSourceAutoConfiguredatasource:druid:stat-view-servlet:enabled: trueloginUsername: ***loginPassword: ***allow:web-stat-filter:enabled: truefilter:wall:conf…

MATLAB知识点:矩阵元素的引用

​讲解视频:可以在bilibili搜索《MATLAB教程新手入门篇——数学建模清风主讲》。​ MATLAB教程新手入门篇(数学建模清风主讲,适合零基础同学观看)_哔哩哔哩_bilibili 节选自第3章 3.3.2 矩阵元素的引用 在讲解矩阵元素的引用之…

【Unity优化(一)】音频优化

整理资教程:https://learn.u3d.cn/tutorial/unity-optimization-metaverse 1.音频优化 音频一般不会成为性能瓶颈,是为了节省内存和优化包体大小。 1.0 文件格式和压缩格式 原始音频资源尽量采用WAV格式。 移动平台音频尽量采用Vorbis压缩格式&#x…

net start mysql服务名无效|发生系统错误 解决办法

未输入正确的mysql服务名 解决办法: 使用net start命令查看可用的服务名,找到mysql的服务名 未使用管理员身份运行命令提示符 解决方法: 使用管理员身份运行命令提示符

背包2讲(2.6)

问题1&#xff1a;装箱问题 题解&#xff1a;这题其实本质上也是01背包&#xff0c;只不过算是变式&#xff0c;要求剩余空间最小值&#xff0c;我们可以转换成最大可以装多少的问题&#xff0c;然后就可以很快的写出题的答案 #include<bits/stdc.h> using namespace st…

Positive Technologies 帮助修复了流行的 Yealink 视频会议系统中的一个危险漏洞

Yealink 感谢我们的专家发现了视频会议系统 Yealink Meeting Server 中的一个关键漏洞 该公司在全球 IP 电话市场排名第一&#xff0c;是五大线上会议解决方案供应商之一&#xff0c;其产品已在 140 多个国家和地区使用。 漏洞 YVD-2023-1257833 (BDU:2024-00482) 属于操作系…

打包 iOS 的 IPA 文件

目录 摘要 引言 准备 选择证书类型 创建应用程序 设置应用程序标识和证书 配置构建设置 构建应用程序 导出IPA 签名和导出 代码案例演示 完成 总结 参考资料 摘要 本篇博客将为您介绍如何打包iOS的IPA文件。从APP提交、创建应用程序、设置应用程序标识和证书、配…

centos安装harbor

安装docker yum install epel-release yum-utils#docker官网源 yum-config-manager \--add-repo \https://download.docker.com/linux/centos/docker-ce.repoyum install docker-ce -y 安装docker-compose curl -SL https://github.com/docker/compose/releases/download/v2…

【自然语言处理-工具篇】spaCy<1>--介绍及安装指南

目录 前言 安装指南 pip conda spaCy升级 总结 前言 spaCy是一个开源的自然语言处理库,用于处理和分析文本数据。它提供了许多功能,包括分词、词性标注

2023-总结

文章目录 工作贡献集成登录角色今年的工作感想 总结感想题外话 工作 今年也是换了公司。 在上个公司首先就是学到了技术&#xff0c;拓展了知识层面。至于离开&#xff0c;也是简单得想多去走走试试。感谢公司和同事的栽培和包容。 来到现在任职的公司同事也是非常友好。刚来…

EMC防护

EMI是指电子设备在自身工作过程中产生的电磁波&#xff0c;对外发射并对设备其它部分或外部其它设备造成干扰。EMI测试项目包括电源线传导骚扰&#xff08;CE&#xff09;测试、信号、控制线传导骚扰&#xff08;CE&#xff09;测试、辐射骚扰&#xff08;RE&#xff09;测试、…

记录关于node接收并解析前端上传excel文件formData踩的坑

1.vue2使用插件formidable实现接收文件&#xff0c;首先接口不可以使用任何中间件&#xff0c;否则form.parse()方法不执行。 const express require(express) const multipart require(connect-multiparty); const testController require(../controller/testController)/…

Android 横屏应用开发如何隐藏左边黑色边缘

最近公司开发一个横屏应用的项目&#xff0c;Phone和Pad一套代码编译&#xff0c;需要考虑到全局横屏状态下的应用&#xff0c;起初竖屏的时候代码是没问题的&#xff0c;可是到切换横屏遇到了黑边问题&#xff0c;先来看看竖屏的时候怎么写的 setContentView之前设置 getWind…

力扣53. 最大子数组和(滑动窗口,动态规划)

Problem: 53. 最大子数组和 文章目录 题目描述思路及解法复杂度Code 题目描述 思路及解法 思路1:滑动窗口 1.为求出最大连续的子数组和,我们逻辑上假设有一个窗口在原数组上滑动, 欲求出最大连续,则需要保证窗口中的所有元素和最起码大于0; 2.即当当前窗口中的元素值的和小于0…