Meta最新成果:前所未有的加速Emu推理 | Imagine Flash:新型蒸馏框架发布

文章地址:https://arxiv.org/pdf/2405.05224

扩散模型是一个强大的生成框架,但推理过程非常昂贵。现有的加速方法通常会在极低步骤情况下牺牲图像质量,或者在复杂条件下失败。这项工作提出了一个新颖的蒸馏框架,旨在通过仅使用一到三个步骤实现高保真度和多样化样本生成。方法包括三个关键组成部分:

(i) 反向蒸馏,通过校准学生模型自身的反向轨迹来缓解训练推理差异;
(ii) 迁移重构损失,根据当前时间步动态调整知识传递;
(iii) 噪声校正,一种增强样本质量的推理时技术,通过解决噪声预测中的奇异性来改善样本质量。

通过大量实验证明,我们的方法在定量指标和人类评估方面优于现有竞争对手。值得注意的是,我们的方法仅使用三个去噪步骤就实现了与教师模型相当的性能,实现了高效的高质量生成。

生成的效果图

介绍

随着去噪扩散模型(DMs)的出现,生成建模已经发生了一场范式转变。这些模型在各个领域树立了新的基准,提供了前所未有的逼真性和多样性,同时确保了稳定的训练。然而,去噪过程的顺序性质带来了显著挑战。从DMs中抽样是一个耗时和昂贵的过程,所需时间在很大程度上取决于两个因素:(i)每步神经网络评估的延迟,以及 (ii)去噪步骤的总数

大量的研究工作致力于加速抽样过程。对于文本到图像的合成,提出的方法涵盖了广泛的技术,包括高阶求解器、用于曲率降低的修改扩散公式,以及引导、步骤和一致性蒸馏。这些方法取得了令人印象深刻的改进,在接近10步的区间内达到了非常高的质量。最近,利用蒸馏和对抗性损失两者的混合方法[17,31,39]将界限推动到了不到五步。尽管这些方法在简单提示和简单样式(如动画)上取得了令人印象深刻的质量,但它们在真实照片般的图像上,特别是在复杂的文本条件下,样本质量下降。

上述方法中的一个共同主题是试图将少步骤的学生模型与复杂的教师路径对齐,尽管学生模型具有明显较低的容量(即步骤)。我们认识到这是一个限制,因此提出了一种新颖的蒸馏框架,旨在使教师模型沿着自己的扩散路径改进学生模型。总之,本文贡献有三个方面:

  • 首先,方法引入了反向蒸馏,这是一种设计用于在其自身上游反向轨迹上校准学生模型的蒸馏过程,从而减少了训练和推理分布之间的差距,并确保在所有时间步长上训练期间没有数据泄漏。

  • 其次,提出了一种迁移重构损失,它动态地调整来自教师模型的知识迁移。具体而言,该损失被设计为在高时间步长时从教师模型中提炼全局结构信息,而在低时间步长时专注于渲染细粒度细节和高频成分。这种自适应方法使学生能够有效地模拟教师的生成过程在扩散轨迹的不同阶段。

  • 最后,提出了噪声校正,这是一种在推理时修改,通过解决在初始采样步骤中存在的噪声预测模型中的奇异性来增强样本质量的技术。这种无需训练的技术减轻了对比度和颜色强度的降级,这种降级通常会在极低数量的去噪步骤中操作时出现。

通过将这三个新颖组件协同结合起来,将我们的蒸馏框架应用到基线扩散模型Emu中,从而实现了Imagine Flash,在极低步长区间内实现了高质量的生成,而不会影响样本质量或条件保真度(下图2)。通过大量实验和人类评估,展示了我们的方法在各种任务和模态之间实现了抽样效率和生成质量之间的有利折衷。

方法

Imagine Flash,这是一种新颖的蒸馏技术,旨在快速进行文本到图像的生成,它建立在Emu 的基础上,但不局限于此。与原始的Emu模型不同,后者需要至少50个神经函数评估(NFEs)才能生成高质量的样本,Imagine Flash仅需少量NFEs即可实现可比较的结果。提出的蒸馏方法包括三个新颖的关键组成部分:

  • 反向蒸馏,这是一种蒸馏过程,确保了在所有时间点t上的训练期间零数据泄漏。

  • 迁移重构损失(SRL),这是一种自适应损失函数,旨在最大化从教师模型中的知识迁移。

  • 噪声校正,这是一种无需训练的推理修改,用于改善在噪声预测模式下训练的少步骤方法的样本质量。

接下来,假设可以访问一个预训练的扩散模型,它预测噪声估计。这个教师模型可以在图像空间或潜在空间中操作。我们的目标是将的知识蒸馏到一个学生模型中,同时减少抽样步骤的总数,并提供额外允许中每一步的高质量增加。如果模型使用无分类器的引导(cfg),那么也将这些知识蒸馏到学生模型中,并且消除cfg的需要。

反向蒸馏

总的来说,反向蒸馏消除了所有时间步骤t上的信息泄漏,防止模型依赖于真值信号。这是通过在训练期间模拟推理过程来实现的,这也可以解释为在其自身的上游反向路径上校准学生模型。

SRL:迁移重构损失

通过反向扩散进行图像生成的过程中,早期阶段(其中t接近T)对于构建图像的整体结构和组成至关重要。相反,后期阶段(其中t接近0)对于添加高级细节至关重要。借鉴这一观察结果,对默认的知识蒸馏损失进行了改进,鼓励学生模型学习教师模型的结构组成和细节渲染能力。这涉及将教师去噪的起始点从学生的起始点t移开,因此我们将这种方法称为迁移重构损失(SRL)。下图4概述了提出的Loss。

这种方法鼓励学生在早期后向步骤中优先提取结构知识,并在最后后向步骤中集中精力生成更精细的细节。

噪声校正

我们提出了一个简单的、无需训练的替代方案,即切换到zero-SNR速度预测,这允许使用噪声预测模型而不产生前述的偏差。具体来说,通过将视为一个特殊情况,并用真实噪声替换,更新得到了校正。

观察到,这个小的修改可以显著改善估计的颜色,使色调更加生动饱满。当推理步骤数量较少时,这种效应尤为明显。

实验

为了确保公平性,将Emu模型作为所有实验的基础。Emu是一个拥有27亿参数和分辨率为768×768的最先进模型。将我们的结果与之前的蒸馏方法进行比较,例如Step Distillation、LCM和ADD,并将它们直接应用在Emu上。所有模型都在一个委托的图像数据集上进行了替换训练。由于ADD训练没有公开可用的代码,根据论文中提供的细节自行实现了它。

与最新技术的定量比较

使用FID 、CLIP分数 和CompBench将Imagine Flash与之前的方法进行比较。FID和CLIP分别衡量图像质量和提示对齐度,并根据来自COCO2017 的5k样本分割进行评估,遵循[31]中的评估协议。CompBench是一个基准,单独衡量属性绑定(颜色、形状和纹理)和对象关系(空间、非空间和复杂)。

在CompBench验证集中为每个提示生成2张图像(总共300个提示)。对于LCM和Imagine Flash,计算1、2和3步的指标。对于ADD,计算4步的指标,因为该方法专门针对4步推理进行了调优和配置,以确保公平比较。还评估了4步的Step Distillation,以提供更直接的比较。表1显示了结果。

我们的3步Imagine Flash在FID方面优于Step Distillation和ADD,即使使用了少一步。它在1、2和3步的FID上也比LCM低。我们的3步模型的CLIP分数高于所有变体的ADD和LCM,并与4步Step Distillation模型的得分(30.2)相匹配。与Step Distillation和ADD相比,它们相应地降低了FID分别为10.1和3.4,而我们的3步和2步Imagine Flash则保持了FID并略有改善。

对于CompBench,我们的1、2或3步Imagine Flash在所有类别中都优于以前的方法,除了颜色外,其中4步Step Distillation和ADD的得分与我们的类似。这突显了Imagine Flash的优越提示对齐性。

与最新技术的定性比较

在图5中,展示了Imagine Flash与当前最先进技术(SOTA)的定性比较:Step Distillation、LCM和ADD,它们都对相同的基线Emu模型进行了蒸馏,以进行公平比较。

观察到ADD生成的图像比Step Distillation和LCM更清晰,这是因为它使用了对抗损失。虽然Imagine Flash和ADD都使用了鉴别器,但Imagine Flash生成的图像比ADD更锐利和更详细。Imagine Flash的增强锐度和细节是由我们提出的SRL导致的,它有效地精炼了学生预测的高频细节,如下图6的最后一行所示。

另一方面,对于ADD,目标图像可能展示出明显不同的色谱,出现颜色伪影(见图6),并且颜色在训练迭代过程中可能出现不可预测的波动。我们假设,为了在期望中最小化L2重构损失,ADD模型最好通过预测接近零的颜色值来达到目标,从而导致图像苍白和轮廓模糊。 除了改善局部细节外,SRL还可以纠正学生的文本对齐错误,如图6右侧所示(1步),其中小熊猫被转换回了狗。

与公开模型的比较

还将Imagine Flash的性能与ADD-LDMXL和Lightning-LDMXL发布的公开模型进行了比较。为此,按照前面详细说明的方法计算CLIP和FID分数,并与基准模型进行相对增益/下降的比较。请在附录A中找到表格。我们的方法在文本对齐能力上与ADD和Lightning保持类似,但在FID增加方面显示出更为有利的结果,尤其是对于两步和三步。

此外,进行了广泛的人类评估。为此,使用了三个推理步骤为OUI数据集中随机抽样的1,000个提示生成了所有方法的图像。成对的图像呈现给42名受过训练的人类标注者中的五名,他们的任务是为更具视觉吸引力的图像投票。通过多数投票汇总的结果显示在表2中,明显表明了对Imagine Flash的偏好。

消融研究

对Imagine Flash进行了定量和定性消融,以评估所提出的反向蒸馏、SRL和噪声校正的效果。定量评估如表3所示,而补充视觉消融如图7所示

结论

Imagine Flash,这是一种新颖的蒸馏框架,能够利用扩散模型实现高保真度的少步骤图像生成。方法包括三个关键组成部分:反向蒸馏以减少训练推理差异,迁移重构损失(SRL)动态地调整每个时间步的知识传递,以及噪声校正以增强初始样本质量。

通过大量实验,Imagine Flash取得了显著的成果,仅使用三个去噪步骤就与预训练的教师模型的性能相匹配,并始终超越现有方法。这种前所未有的抽样效率结合了高样本质量和多样性,使我们的模型非常适用于实时生成应用。

我们的工作为超高效的生成建模铺平了道路。未来的方向包括扩展到其他模态,如视频和3D,进一步降低抽样预算,并将我们的方法与互补的加速技术相结合。通过实现即时的高保真度生成,Imagine Flash为实时创意工作流程和交互式媒体体验开启了新的可能性。

更多生成的图像

参考文献

[1] Imagine Flash: Accelerating Emu Diffusion Models with Backward Distillation

 更多精彩内容,请关注公众号:AI生成未来

欢迎加群交流AIGC技术,添加小助手

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/9358.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

系统思考—愿景领导

“如果你总是低着头,那么你永远无法看见彩虹。”这句话不仅是对个人的提醒,也极其适用于每一位企业创始人。每位创始人背后不仅有一个梦想,还有一段充满爱的故事。 在作为策略顾问的角色中,我深知聆听的重要性——需要全神贯注地…

链表第4/9题--翻转链表--双指针法

LeetCode206:给你单链表的头节点 head ,请你反转链表,并返回反转后的链表。 示例 1: 输入:head [1,2,3,4,5] 输出:[5,4,3,2,1]示例 2: 输入:head [1,2] 输出:[2,1]示例…

防火墙技术基础篇:解析防火墙应用层代理概念及功能

防火墙技术基础篇:解析防火墙应用层代理概念及功能 1 应用层代理的概念 应用层代理(Application Proxy):防火墙应用层代理是网络安全领域中的一种重要技术,工作在OSI模型的第七层,即应用层。它通过代理服…

汽车EDI:安通林Antolin EDI 项目案例

安通林(Antolin)是一家全球性的汽车零部件制造商,专注于汽车内饰系统和零部件的生产,致力于创新和采用先进的技术。近年来 安通林Antolin 推动其供应商部署EDI系统,使得双方能够通过EDI传输业务单据,极大提…

和府捞面三年累亏7亿,李学林万店计划受阻

大面积裁员、使用预制料理包,曾经的网红高端面馆连锁品牌和府捞面深陷风波。 2012年,和府捞面以一碗“书房里的养生面”打开市场,其创始人李学林在面馆赛道另辟蹊径,门店设计引入了“书房”概念,走“高端”路线&#…

zabbix基础

监控系统基本介绍: 企业级应用中,服务器数量众多,一般情况下需要维护人员进行长时间对服务器体系、计算机或其他网络设备(包括硬件和软件)进行长时间进行性能跟踪,保证正常稳定安全的运行,于是…

安全多方计算简介

安全多方计算 安全多方计算(SecureMulti-partComputation,MPC)是80年代提出的一个概念,它已成为隐私计算的核心技术之一。在密码学和区块链技术应用中占据重要地位。 MPC数学定义: 假设存在n个参与方 P 1 , P 2 , … , P n P_1,…

python实现英文短文自动分词写入文本文件

欢迎关注我👆,收藏下次不迷路┗|`O′|┛ 嗷~~ 目录 一.前言 二.代码 三.使用 四.分析 一.前言 英文短文自动分词(Automatic Word Segmentation)在自然语言处理和文本分析中有着广泛的应用。

详解typora配置亚马逊云科技Amazon S3图床

欢迎免费试用亚马逊云科技产品:https://mic.anruicloud.com/url/1333 当前有很多不同的博客社区,不同的博客社区使用的编辑器也不尽相同,大概可以分为两种,一种是markdown格式,另外一种是富文本格式。例如华为云开发者…

深度学习基础之《TensorFlow框架(17)—卷积神经网络》

一、卷积神经网络介绍 1、背景 随着人工智能需求的提升,我们想要做复杂的图像识别,做自然语言处理,做语义分析翻译等等,多层神经网络的简单叠加显然力不从心 2、卷积神经网络与传统多层神经网络对比 (1)传…

MotionDiffuse: Text-Driven Human Motion Generation withDiffusion Model # 论文阅读

URL https://arxiv.org/pdf/2208.15001 主页:https://mingyuan-zhang.github.io/projects/MotionDiffuse.html TD;DR 22 年 8 月商汤的文章,引用量 200。基于 SD,任务是输入文本的动作描述,生成对应的动作序列。 已有的 moti…

windows 10安装 docker desktop

升级 windows 10 windows 10 升级到 20H2,如 20H2 19045.4291。 注意:需返回更新,重启计算机,确保更新完整。 bios 开启虚拟化 开启cpu虚拟化功能。 windows 启用功能 启用hyper-v 启用 wsl 安装 wsl https://learn.microso…

【环境配置】vsCode 中使用 conda 配置虚拟环境

文章目录 准备前言在 vsCode 中直接创建创建步骤测试更新环境 使用 Anaconda 建立虚拟环境创建步骤在 vsCode 中选择环境 总结 准备 在看本博客之前,希望大家有以下知识储备: 能够正确安装 vsCode,并配置好 python 环境;了解并安…

一觉醒来 AI科技圈发生的大小事儿 05月09日

📳AlphaFold 3 重磅问世,全面预测蛋白质与所有生命分子相互作用及结构,准确性远超以往水平 Google DeepMind发布了AlphaFold3模型,能够联合预测蛋白质、核酸、小分子等复合物结构,准确性显著提高,对跨生物…

Flask SQLAlchemy 技术指南

文章目录 什么是 Flask SQLAlchemy?安装 Flask SQLAlchemy创建 Flask 应用和数据库模型添加和查询数据运行 Flask 应用总结**数据库迁移(Database Migrations)****复杂查询****关系模型****事务处理****性能优化****安全性****扩展功能** Fla…

深化产教融合,泰迪智能科技助力西南林业大学提质培优

2024年5月7日,泰迪智能科技昆明分公司院校部总监查良红和数据部负责人余雄亮赴西南林业大学理学院就工作室共建事宜进行交流会谈。西南林业大学理学院院长张雁、党委副书记魏轶、副院长谢爽、就业负责人罗丽及学生代表参与本次交流会。 会议伊始,谢副院长…

邮件大附件系统如何进行安全、高效的大附件发送?

邮件大附件系统是一套解决传统电子邮件系统,在发送大文件时遇到限制的解决方案。由于传统电子邮件系统通常对附件大小有限制,这使得发送大文件变得困难。邮件大附件系统通过各种技术手段,允许用户发送超过传统限制的大文件,通常在…

07-面向对象编程(基础部分)

学习java最核心最重要的就是要理解面向对象。 1. 类与对象 1.1 介绍 类是抽象的,概念的,代表一类事物,比如人类,猫类,狗类.., 即它是数据类型。 对象是具体的,实际的,代表一个具体事物,&…

Leetcode227. 基本计算器 II

Every day a Leetcode 题目来源&#xff1a;227. 基本计算器 II 解法1&#xff1a;单栈模拟 因为没有括号&#xff0c;所以可以简化成单栈。 代码&#xff1a; class Solution { public:int calculate(string s){vector<int> nums;char preSign ;int num 0;int n …

Android 系统版本与SDK API对应关系-2024.5

官网地址&#xff1a;https://developer.android.google.cn/tools/releases/platforms?hlth