一步成像:Hyper-SD在图像合成中的创新与应用

一、摘要

         论文:https://arxiv.org/pdf/2404.13686

        代码:https://huggingface.co/ByteDance/Hyper-SD

        在生成人工智能领域,扩散模型(Diffusion Models, DMs)因其出色的图像生成质量而备受关注,但其多步骤推理过程的高计算成本一直是其广泛应用的瓶颈。本文介绍的Hyper-SD框架是来自字节的一篇工作,通过创新的轨迹分割一致性蒸馏(Trajectory Segmented Consistency Distillation, TSCD)技术,显著提升了图像合成的效率,同时保持了生成图像的高质量。 主要贡献包括:

  1. 轨迹分割一致性蒸馏(TSCD):一种新颖的蒸馏技术,通过在预定义的时间步段内逐步执行一致性蒸馏,有效保留了原始ODE(常微分方程)轨迹,同时减少了推理步骤。
  2. 人类反馈学习:结合人类对生成图像的美学偏好,通过反馈学习优化模型性能,尤其在低步骤推理情况下显著提升了图像质量。
  3. 统一的LoRA模型:提出了一个支持1到8步推理的统一LoRA模型,为不同需求的用户提供了灵活性,同时保证了全时推理的一致性。
  4. 性能提升:在少步骤推理中,Hyper-SD在多个评估指标上超越了现有技术,包括CLIP Score和Aes Score等,证明了其在图像合成任务中的领先地位。

        本博客对Hyper-SD的技术细节,包括其核心算法、实验结果做简单总结供快速阅读之用。

二、核心内容:

        这篇论文介绍了一个名为Hyper-SD的新型框架,旨在提高扩散模型(Diffusion Models, DMs)在图像合成任务中的效率和性能。以下是对论文内容的总结,包括主要贡献、主要创新、核心网络结构和核心算法细节:

1.)主要贡献:

  1. 加速(Accelerate):提出了轨迹分割一致性蒸馏(Trajectory Segmented Consistency Distillation, TSCD),这是一种更细粒度和高阶一致性蒸馏方法,用于原始基于分数的模型。
  2. 提升(Boost):通过人类反馈学习(Human Feedback Learning, ReFL)进一步提升模型在低步数推理条件下的性能。
  3. 统一(Unify):提供了一个统一的低秩适应(Low-Rank Adaptation, LoRA)模型,作为全时一致性模型,并支持所有NFE(Noise Free Expressions)的推理。
  4. 性能(Performance):Hyper-SD在1到8步推理中为SDXL和SD1.5实现了最先进的性能。

2.)主要创新:

  • 轨迹分割一致性蒸馏(TSCD):通过将时间步分割成多个段,并在每个段内执行一致性蒸馏,逐步减少段数以实现全时一致性。
  • 人类反馈学习:利用人类对美学的反馈和现有的视觉感知模型来优化加速模型,调整ODE(常微分方程)轨迹以更好地适应少步推理。
  • 分数蒸馏(Score Distillation):通过统一的LoRA技术,增强了一步生成性能,实现了理想的全时一致性模型。

3.)核心算法细节:

  1. TSCD:通过将时间步分为多个段,每个段内执行一致性蒸馏,然后逐步减少段数,最终实现全时一致性。
  2. 教师-学生模型:在蒸馏过程中,使用教师模型(ftea)和学生模型(fstu)来训练学生模型,以近似教师模型的流位置。
  3. 人类反馈学习:包括奖励模型训练和偏好微调两个阶段,使用人类偏好数据对奖励模型进行训练,然后利用该模型对去噪图像进行评分,以此来微调扩散模型。
  4. 一步生成增强:使用优化的分布匹配蒸馏(DMD)技术来提升一步生成的性能,结合均方误差(MSE)损失和人类反馈学习技术。

4.)实验和评估:

  • 使用了LAION和COYO数据集的子集进行训练。
  • 与现有的加速方案进行了定量和定性比较,证明了Hyper-SD在少步推理中的优势。
  • 进行了广泛的用户研究,以更准确地评估性能。

5.)讨论和局限性:

  • 论文讨论了未来的改进方向,包括保留CFG特性、定制人类反馈优化和探索扩散变换器架构(DIT)。

三、结论:

        Hyper-SD通过结合轨迹保持和轨迹重构的蒸馏技术,实现了在少步推理中的高性能图像生成,为生成AI社区的发展提供了推动力。论文还提供了一些量化的比较结果,展示了Hyper-SD在不同指标上相比于其他方法的优势。此外,论文开源了从1到8步推理的LoRA插件,以及一个专门的一步SDXL模型,以促进生成AIGC社区的发展。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/8819.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

itext5.5.13 PDF预览权限问题

PdfUtils.htFile.createNewFile() createNewFile 创建文件错误错误原因方式一方式二实例代码-生成PDF表格数据 createNewFile 创建文件错误 ht getResourceBasePath() "\\templates\\ht.pdf"; htFile new File(ht);代码含义是创建源文件路…

【大学物理】双语笔记

7.5 angular momentu(角动量)_哔哩哔哩_bilibili 6.4Energy in Rotation Motion 有质量有速度的物体有动能,是不是很有道理 international system(from French systeme international,acronym,SI)of ineria kg*m^2 转…

Google Earth Engine——删除和复制指定ASSETS中的文件信息(JavaScript 和python版本)

如果你和我一样,有大量资产上传到 Earth Engine。随着上传的资产越来越多,管理这些数据变得相当繁琐。Earth Engine 提供了一个便捷的命令行工具,可以帮助进行资产管理。虽然命令行工具非常有用,但在涉及批量数据管理任务时,它就显得力不从心了。 如果你想重新命名一个图…

上位机图像处理和嵌入式模块部署(树莓派4b和mcu的分工与配合)

【 声明:版权所有,欢迎转载,请勿用于商业用途。 联系信箱:feixiaoxing 163.com】 树莓派4b从广义上来说,它本身就是一个mini小电脑。我们需要什么软件,就可以apt install去下载即可。这和之前嵌入式linux开…

8G显存玩转AI换衣IDM-VTON(支持MAC、WIN)

最近AI换衣项目IDM-VTON挺火哈,我也火速体验了一把。效果也是很不错,相对OOTDiffusion的换衣效果提升了不少。 那部署的时候遇到比较大的问题是高显存占用!太吃配置了!24G的显卡占用了18G左右。于是花了点时间改成 使用了低精度模…

Python图形界面(GUI)Tkinter笔记(二):标签Label的基本应用

Label()方法用于在根窗口(根窗口可以想象成一个容器,一个画布,一个电路板;而标签Label()等等这些方法也叫控件或元件或组件,它们可以想象成装进容器的物品,或是想象成画在画布上的图形,或是想象成焊接在电路板上的电子元件)内建立“文字”或“图像”标签。 其余笔记:…

Wireshark Lua插件开发实战:应对TCP粘包问题

0. 概述 Wireshark提供了tcp_dissect_pdus()函数,可以帮助用户处理TCP粘包问题 1. 粘包问题的基本原理 TCP粘包问题本质上是数据包拼接和拆分的问题。当多个应用层数据包被封装成同一个TCP段时,就发生了粘包现象。在解析时,我们需要将粘在…

【linux kernel】杂项(misc)设备驱动总结

文章目录 一、杂项设备简介二、杂项设备API1、注册杂项设备2、注销杂项设备3、杂项设备模块助手函数 三、杂项设备初始化四、杂项设备示例五、杂项设备和字符设备 👉相关文件: drivers/char/misc.cinclude/linux/miscdevice.h 一、杂项设备简介 Linux …

吴恩达2022机器学习专项课程C2(高级学习算法)W1(神经网络):2.5 更复杂的神经网络

目录 示例填写第三层的层数1.问题2.答案 公式:计算任意层的激活值激活函数 示例 层数有4层,不包括输入层。 填写第三层的层数 1.问题 你能把第二个神经元的上标和下标填写出来吗? 2.答案 根据公式g(wxb),这里的x对应的是上…

Nacos支持哪些集群部署模式?

Nacos集群部署模式详解 在微服务架构中,服务注册与发现、配置管理以及服务治理是确保系统稳定、高效运行的关键环节。Nacos作为阿里巴巴开源的一个更易于构建云原生应用的动态服务发现、配置管理和服务管理平台,为微服务架构提供了强大的支持。 一、Na…

pdf2htmlEX:pdf 转 html,医学指南精细化处理第一步

pdf2htmlEX:pdf 转 html,医学指南精细化处理第一步 单文件转换多文件转换 代码:https://github.com/coolwanglu/pdf2htmlEX 拉取pdf2htmlEX 的 Docker: docker pull bwits/pdf2htmlex # 拉取 bwits/pdf2htmlex不用进入容器&…

mysql oceanbase数据库alter语句阻塞,解决方案

获取当前阻塞事件 select d.trx_started, a.thread_id, b.processlist_id, a.SQL_text from performance_schema.events_statements_current ajoin performance_schema.threads b on a.thread_id b.thread_idjoin information_schema.processlist c on b.processlist_id c.i…

最稳定的VPS有哪些?2024年稳定服务器推荐

最稳定的VPS有:DigitalOcean、萤光云、Vultr、Linode、AWS。 VPS的硬件质量、网络稳定性、数据中心设施、数据中心位置等都是评估VPS好坏的重要条件,接下来为一起来看看5个2024年稳定服务器厂商,大家可以自己对比一下。 2024年稳定服务器推荐…

【Vue3】setup通过defineProps获取props为null

我做的功能是父组件往子组件传值 父组件&#xff1a; <MapComponent :zbx"zbx" :zby"zby" /> 子组件&#xff1a; setup(props) {// 定义接收到的 propsconst propsObj defineProps({zbx: Number,zby: Number});console.log(propsObj) // null …

MySql表的增删查改(CRUD)

对表中的数据操作分为4大类&#xff0c;增加数据&#xff0c;删除数据&#xff0c;查找数据&#xff0c;修改数据。对表中的数据进行增删查改操作简称为CRUD。Create(增),Retrieve(查找),Updata(修改&#xff09;,Delete(删除)CRUD的操作是对表中的数据进行操作的&#xff0c;是…

【Ajax零基础教程】-----第三课 FastJson

一、Fastjson 是什么 Fastjson 是阿里巴巴的开源jSON解析库&#xff0c;它可以解析JSON格式的字符串&#xff0c;支持将javaBean序列化为JSON字符串&#xff0c;也可以从jSON字符串反序列化到javaBean。 二、Fastjson使用场景 Fastjson已经被广泛使用在各种场景&#xff0c;包…

【随笔】Git 高级篇 -- 上传命令的参数 (下)git push(三十七)

&#x1f48c; 所属专栏&#xff1a;【Git】 &#x1f600; 作  者&#xff1a;我是夜阑的狗&#x1f436; &#x1f680; 个人简介&#xff1a;一个正在努力学技术的CV工程师&#xff0c;专注基础和实战分享 &#xff0c;欢迎咨询&#xff01; &#x1f496; 欢迎大…

探索Java 18:未来技术趋势与革新之路

Java&#xff0c;作为一门历史悠久而又历久弥新的编程语言&#xff0c;始终站在技术发展的前沿&#xff0c;引领着软件开发的潮流。随着Java 18的发布&#xff0c;我们再次见证了这门语言的自我迭代与革新。本文将深入探讨Java 18带来的新特性、技术趋势&#xff0c;以及它如何…

Java反射机制的实战应用:探索其魅力与局限

引言 Java作为一种面向对象的编程语言&#xff0c;其灵活性和强大的功能使其成为众多开发者的首选。而Java反射机制作为Java语言中的一项重要特性&#xff0c;为程序员提供了一种在运行时检查和操作类、方法、属性等信息的能力。本文旨在深入探讨Java反射机制的实战应用&#…

单节锂电池充电芯片H4054无需外接检测电阻500mA电流7V输入

锂电池充电芯片的主要功能如下&#xff1a; 充电管理功能&#xff1a;充电芯片能够对锂电池进行智能化管理&#xff0c;根据电池的状态和需求&#xff0c;调节充电电流和电压&#xff0c;以实现快速充电、恒流充电、恒压充电等不同的充电模式。通过合理控制充电过程&#xff0…