字节跳动的 SDXL-LIGHTNING : 体验飞一般的文生图

TikTok 的母公司字节跳动推出了最新的文本到图像生成人工智能模型,名为SDXL-Lightning。顾名思义,这个新模型只需很轻量的推理步骤(1,4 或 8 步)即可实现极其快速且高质量的文本到图像生成功能。与原始 SDXL 模型相比,这是一个重大突破,原始 SDXL 模型需要超过 25 个步骤才能达到同等质量。

SDXL-LIGHTNING 简介

虽然 Diffusion 模型在生成任务中取得了出色的结果,但其迭代采样过程既缓慢又计算昂贵。对于实际应用,减少所需的步骤数至关重要。之前的工作尝试了更好的 ODE 求解器、直流和模型蒸馏,但质量在八个或以下的步骤中仍然低于标准。

SDXL 将潜在扩散引入文本到图像的生成,支持高分辨率 1024px 输出。然而,其多步采样进行了 50 多个推论。显然,需要更快的生成速度才能释放扩散模型的全部潜力。这就是 SDXL-Lightning 的用武之地。SDXL-Lightning 通过一步生成 1024 像素来突破界限。

渐进式对抗蒸馏法

SDXL-Lightning 模型同时利用渐进式和对抗性蒸馏。渐进式蒸馏教会学生网络预测密度流上更前方的位置,而对抗性损失则确保学生的预测与教师网络的预测相匹配。

此外,蒸馏过程从 128 步逐步降低到 32 步,再到最后的 1 步,经过多个阶段。在提取具有对抗性损失的模式覆盖率之后,放宽了要求,将质量优先于覆盖率,同时保留整体流程。

这种平衡的方法就是 SDXL-Lightning 能够出色地弥合困扰其他方法的质量保真度权衡的原因。 

SDXL-Lightning 中使用的模型是从 StabilityAI 的稳定扩散 XL 基础中提炼出来的。这确保了生成的图像保持高度的稳定性和连贯性。字节跳动提供了 1 步、2 步、4 步和 8 步蒸馏模型的检查点,每个检查点都有自己独特的生成质量。

  • sdxl_lightning_1step_x0.safetensors
  • sdxl_lightning_2step.safetensors
  • Sdxl_lightning_4step.safetensors
  • sdxl_lightning_8step.safetensors

性能评估

综合评估表明,SDXL-Lightning 为几步文本到图像生成设定了新的最先进技术。定性评估和 CLIP 评分指标均表明,与 LCM、SDXL-Turbo 和原始SDXL模型相比,SDXL-Lightning 可以生成质量更好的图像。

衡量质量和多样性的定量 Fréchet 起始距离 (FID) 分数与其他方法相当。然而,在 299 像素补丁上计算的 FID(评估高分辨率细节)要好得多,与次佳模型相比,得分低 2 倍以上。这验证了 SDXL-Lightning 在 1024 像素图像中生成了极其出色的细节。 

SDXL-LIGHTNING 的配置选项 

检查点可用于 1、2、4 和 8 个推理步骤,允许用户根据需要平衡速度与质量。1 步模型一次生成图像,但质量可能不一致,因此通常建议使用两步或更多步。 

支持两种架构选项——UNet 和 LoRA。 

1. UNET 检查点:2 步、4 步、8 步

UNet 模型使用标准的完整神经网络来调节扩散过程。它们提供最高的图像质量生成,但需要更多内存。BteDance 的 2 步、4 步和 8 步 UNet SDXL-Lightning 模型如下:

  • sdxl_lightning_2step_unet.safetensors
  • sdxl_lightning_4step_unet.safetensors
  • Sdxl_lightning_8step_unet.safetensors

2. LORA 检查点:2 步、4 步、8 步

这些模型还表现出处理不同纵横比的可靠能力,并展示了与现有 LoRA 模块的兼容性,以便在基本模型之间轻松转移。LoRA模型采用轻量级回归方法。图像质量略低于UNet。 

但 SDXL-Lightning 现已将 Loras 更新为 .safetensors 文件。这些更新的 .safetensors 文件提供了改进的稳定性和连贯性,从而产生更加真实和视觉上吸引人的图像。Loras 更新为 .safetensors 很有帮助,因为这些压缩文件可以节省存储空间。

  • sdxl_lightning_2step_lora.safetensors
  • sdxl_lightning_4step_lora.safetensors
  • Sdxl_lightning_8step_lora.safetensors

SDXL-LIGHTNING 与 COMFYUI 

该模型还可以与 ComfyUI 集成,以获得更人性化的体验。无论您选择 1 步、2 步、4 步、8 步 UNet 还是 2 步、4 步、8 步 UNet loras,ComfyUI 都提供了从文本生成图像的简化工作流程。以下是各个 ComfyUi 工作流程的下载链接:

  • ComfyUI 完整的一步工作流程
  • ComfyUI 完整的 UNet 工作流程
  • ComfyUI LoRA 工作流程

SDXL-LIGHTNING图像生成实例

以下实例是本地搭建的服务器运行SDXL-LIGHTNING模型生成,使用的是 sdxl_lightning_4step.safetensors

Prompt: An Asian firefighter with a rugged jawline rushes through the billowing smoke of an autumn blaze.

Prompt: A close-up of an Asian lady with sunglasses.

Prompt: The 90s, a beautiful woman with a radiant smile and long hair, dressed in summer attire.

Prompt: A majestic lion stands proudly on a rock, overlooking the vast African savannah.

Prompt: A monkey making latte art.

Prompt: In a fantastical scene, a creature with a human head and deer body emanates a green light.

Prompt: A delicate porcelain teacup sits on a saucer, its surface adorned with intricate blue patterns.

Prompt: A pickup truck going up a mountain switchback.

Prompt: A tanned woman, dressed in sportswear and sunglasses, climbing a peak with a group during the summer.

Prompt: A dolphin leaps through the waves, set against a backdrop of bright blues and teal hues.

Prompt: A boy jumping off a spaceship.

上手实操视频

本视频是在自己本地搭建的服务器上运行,GPU是NVIDIA RTX-4090。视频未作加速,可以看到,生成图片的速度还是非常快的。

字节跳动SDXL-Lightning文生图模型使用演示

结论

借助 SDXL-Lightning,字节跳动在文本到图像合成方面取得了重大进步。经过 LoRA 训练的模型进一步扩展了即插即用模块的可用性。然而,与其他生成模型一样,传播错误信息或不当内容也存在滥用风险。为了减轻这些担忧,负责任和道德的发展实践是必要的。但总的来说,像 SDXL-Lightning 这样的模型体现了人工智能在计算创造力方面的巨大潜力。其方法也为扩散模型蒸馏研究提供了新的方向。有关更多技术细节,请访问项目 arXiV 论文。

作者个人Blog文章地址:字节跳动的 SDXL-LIGHTNING : 体验飞一般的文生图 - HY's Blog

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/735201.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

uniapp开发小程序实现-获取手机号码(二)

一共3篇文章,共同描述,看序号进行寻找。 真机效果图 1.前提 获取手机号码,一定要企业账号,不是企业账号会出现下面提示 所以没有企业账号的,就可以不用看了,申请企业账号去官网申请就行了,申请成功了后,我们接着看。 2.代码 代码参考文章 获取手机号 | 微信开放文…

AI PC:重塑未来办公与生活方式的革命性工具

随着科技的飞速发展,人工智能(AI)已经渗透到我们生活的方方面面。而在PC领域,一场由AI引领的变革也正在悄然发生。从硬件到软件,从云端到终端,AI正在重塑我们的办公和生活方式。 AI工具网 | 人工智能工具推…

简单银行管理系统(C# winform SQL Server)

一、任务描述 1.使用Asp.NET技术,完成银行管理系统 2.开发工具:VS2010 3.数据库:SQL Server 2008 功能模块:登录、开户、存款、取款、转账、挂失等功能 运行界面: 1.登录界面(Login.aspx) 在…

数据分析-Pandas两种分组箱线图比较

数据分析-Pandas两种分组箱线图比较 数据分析和处理中,难免会遇到各种数据,那么数据呈现怎样的规律呢?不管金融数据,风控数据,营销数据等等,莫不如此。如何通过图示展示数据的规律? 数据表&am…

牛客周赛 Round 36

赛况 C题可惜,比赛时模拟没有想明白,只对了一半,赛后看了大佬们的题解后恍然大悟,而F题是压根没思路,况且F题部分分也比较难拿。 题目列表 A-小红的数位删除 思路 将读入的数字整除10做三次后输出即可 参考代码 #inc…

高效管理百万级数据:MySQL备份与恢复实战指南

简介 在当今数字化时代,数据是企业不可或缺的核心资产之一,而MySQL作为一种流行的关系型数据库管理系统,其百万级数据的高效管理显得尤为重要。本实战指南将深入探讨MySQL备份与恢复的关键策略,为您提供全面而实用的解决方案。通…

streamlit学习-如何修改css样式

streamlit学习-如何修改css样式 效果图代码(srv.py)运行 streamlit默认的样式有时并不符合自己的要求。比如手机上的布局太浪费空间,我们希望一屏能放下所有的元素,本文演示了如何操作 效果图 代码(srv.py) import streamlit as st #1.31.1 import cv2 import numpy as np im…

实验二(二)OSPF路由协议基础实验

1.实验介绍 1.1关于本实验 开放式最短路径优先 OSPF(Open Shortest Path First)是IETF 组织开发的一个基于链路状态的内部网关协议(Interior Gateway Protocol)。目前针对 IPv4 协议使用的是 OSPF Version 2(RFC2328);OSPF 作为基于链路状态的协议,OSPF 具有以下优…

OpenFeign的常规使用

架构: 一.新建module 引入依赖: <!--openfeign--><dependency><groupId>org.springframework.cloud</groupId><artifactId>spring-cloud-starter-openfeign</artifactId></dependency> yml配置; server:port: 80spring:applicati…

计算机网络(五)

网络层 网络层的主要目的是实现网络互连&#xff0c;进而实现数据包在各网络之间的传输。 要实现网络层&#xff0c;主要解决三个问题&#xff1a; ①网络层向运输层提供怎样的服务&#xff1f;&#xff08;“可靠传输“、”不可靠传输“&#xff09; ②网络层寻址 ③路由选择…

2024年k8s最新版本安装教程

k8s安装教程 1 k8s介绍2 环境搭建2.1 主机准备2.2 主机初始化2.2.1 安装wget2.2.2 更换yum源2.2.3 常用软件安装2.2.4 关闭防火墙2.2.5 关闭selinux2.2.6 关闭 swap2.2.7 同步时间2.2.8 修改Linux内核参数2.2.9 配置ipvs功能 2.3 容器安装2.3.1 设置软件yum源2.3.2 安装docker软…

动态规划(蓝桥杯 C++ 题目 代码 注解)

目录 介绍&#xff1a; 题目一&#xff08;数字三角形&#xff09;&#xff1a; 题目二&#xff08;跳跃&#xff09;&#xff1a; 题目三&#xff08;背包问题类型&#xff09;&#xff1a; 题目四&#xff08;蓝肽子序列&#xff09;&#xff1a; 题目五&#xff08;合唱…

学习笔记。。。

1.字符串的拼接 1.sprintf() 往字符串的前面或中间、后面拼接一个字符串。 2.strncpy()用来复制字符串的前n个字符 //dest为目标数组&#xff0c;src为源数组&#xff0c;n为要复制的字符个数 2.char* My_strncpy(char* dest, const char* src, int n) 3.char *strcat(ch…

代码训练LeetCode(7)删除有序数组中的重复项

代码训练(7)LeetCode之删除有序数组中的重复项 Author: Once Day Date: 2024年3月10日 漫漫长路&#xff0c;才刚刚开始… 全系列文章可参考专栏: 十年代码训练_Once-Day的博客-CSDN博客 参考文章: 26. 删除有序数组中的重复项 - 力扣&#xff08;LeetCode&#xff09;力扣…

【病毒查杀】“PE启动盘+360杀毒软件”对硬盘病毒查杀

通过本步骤&#xff0c;用户可使用WinPE版本360系统急救箱软件对主板硬盘进行病毒木马扫描和杀毒操作。 360系统急救箱&#xff0c;这款软件是360官方推出的一款杀毒工具箱&#xff0c;可以帮助用户仅在WinPE环境下就可对硬盘进行病毒木马查杀&#xff0c;可能查杀过后因病毒木…

网络安全: Kali Linux 进行 MSFvenom 程序利用

目录 一、实验 1.环境 2. Kali Linux 进行 MSFvenom 程序利用 3. 创建计划任务自动运行 MSFvenom 程序 二、问题 1.在线加密解密 2.MSF 运行失败 3.MobaXterm 连接Ubuntu 失败 一、实验 1.环境 &#xff08;1&#xff09;主机 表1 主机 系统版本IP备注Kali Linux20…

STM32单片机基本原理与应用(十一)

语音识别实验 此实验采用STM32核心板 LD3320模块&#xff0c;通过初始化LD3320并写入待识别关键词&#xff0c;对麦克风说出相应关键词&#xff0c;实现实训平台上的流水灯相应变化的效果。 LD3320 是一颗基于非特定人语音识别 &#xff08;SI-ASR&#xff1a;Speaker-Indepen…

AI训练数据处理和读取

AI训练数据处理和读取 AI数据处理 AI数据处理概述 AI数据处理是指对原始数据进行一系列的操作&#xff0c;以便机器学习算法能够从中提取有用的信息&#xff0c;进而进行模型的训练、验证和部署。数据处理是机器学习流程中的关键步骤&#xff0c;其质量直接影响到模型的性能…

手把手一起开发SV4E-I3C设备(四)

JEDEC DDR5 SPD Hub Devices例程 所有例程&#xff0c;SV4E-I3C设备连接器件均为SPD5芯片&#xff0c;Reg表示MR寄存器&#xff0c;Mem表示NVM存储器 1、ENEC CCC ENEC 启用事件中断&#xff0c;ENEC CCC 仅在设备置于 I3C 基本模式后才受支持。当 SPD5 注册 ENEC CCC 时&am…

【CSS面试题】高度塌陷问题及解决

什么情况下产生 (when 父盒子没有定义高度&#xff0c;但是子元素有高度&#xff0c;希望用子盒子撑起父盒子的高度&#xff0c;但是子盒子添加了浮动属性之后&#xff0c;父盒子高度为0 <template><div class"father"><div class"son"&…