优化扩散模型中的采样计划

在生成模型领域,扩散模型(Diffusion Models, DMs)因其卓越的生成质量而成为最新的技术趋势。但这些模型的一个关键缺点是它们的采样速度较慢,需要通过大型神经网络进行多次顺序函数评估。扩散模型通过一个称为采样计划的离散噪声水平集来解决微分方程。尽管过去的研究主要集中在开发高效的求解器上,但很少有人关注寻找最优的采样计划。大多数现有工作都依赖于手工制定的启发式计划,如简单多项式和余弦函数。本文提出了一种新的框架,名为“Align Your Steps”(AYS),用于优化扩散模型中的采样计划,显著提高了输出质量,尤其是在仅进行少量步骤合成时。

AYS框架

AYS框架利用随机微积分方法,为不同的求解器、训练有素的DMs和数据集找到最优的采样计划。该框架基于所有随机SDE求解器都可以重新解释为在短间隔内精确求解近似线性化SDE的观察结果。通过将问题框架化为采样计划上的优化问题,使用随机微积分技术最小化近似线性SDE和真实生成SDE之间的不匹配。

使用AYS优化采样计划后,图像合成的细节得到了显著改善

AYS框架的核心在于它能够根据数据集的特性、所使用的模型以及选定的求解器,定制出最优的采样计划。这种定制化的方法是传统启发式采样计划所不具备的,后者通常依赖于简单的多项式衰减或余弦退火等规则。通过优化采样计划,AYS框架能够确保在给定的计算预算内,生成的样本尽可能地接近真实数据分布。

为了找到最优的采样计划,AYS框架采用了一种基于随机微积分的方法。它通过最小化真实生成的SDE(随机微分方程)与近似线性化SDE之间的Kullback-Leibler (KL) 散度上界(KLUB),来优化采样计划。这种方法允许研究者在不同的时间点调整采样计划,以确保生成过程的每一步都能够有效地逼近真实的数据生成过程。

AYS框架的另一个显著优势是其快速合成能力。在需要迅速生成高质量样本的应用场景中,AYS框架通过优化采样步骤,减少了生成过程中所需的前向评估次数,从而加快了整个合成过程。AYS框架还具有很好的通用性。它不仅限于特定的数据类型或模型架构,而是可以泛化到多种不同的扩散模型和求解器。无论研究者或开发者使用的是图像、文本还是视频数据,都可以利用AYS框架来优化他们的采样计划。

在实现上,AYS框架采用了迭代优化的方法。首先使用启发式方法初始化采样计划,然后通过迭代过程调整各个时间点,以最小化KL散度上界。这个过程可以高度并行化,因为各个时间点的优化可以独立进行。为了确保优化过程的稳定性和有效性,AYS框架还引入了早停机制。

优化采样计划

AYS优化采样计划的方法。它说明了通过最小化KL散度上界(KLUB)来找到最优的DM采样计划

在进行少步骤合成时,现有的采样计划可能导致显著的离散化误差,从而影响最终的输出质量。为了证明优化采样计划的必要性,研究者以一个简单的高斯数据分布为例,展示了如何通过解析方法得到最优采样计划,并发现该计划与文献中常用的启发式采样计划有显著不同。

比较了不同的采样计划。它展示了在高斯数据分布下,最优采样计划与文献中常用的启发式采样计划之间的差异

研究者使用Girsanov定理来分析离散化误差,该定理提供了两个共享扩散项的随机微分方程(SDEs)输出差异的上界。通过这个上界(KL-divergence Upper Bound, KLUB),研究者将寻找最优采样计划的问题转化为一个优化问题,就是最小化实际求解SDE/ODE时使用的离散采样计划与理论上无需离散化的逆向生成SDE之间的差异。

为了解决上述优化问题,研究者提出了一个迭代方法。该方法首先选择一个采样计划的索引,然后在其周围选择多个候选点,计算每个候选点的KLUB,并选择使KLUB最小的候选点作为优化后的采样点。这个过程可以高度并行化,特别是对于非邻近的索引。

为了减少方差并提高KLUB估计的准确性,研究者使用了针对时间t的重要性采样。通过假设高斯数据分布,并解析计算所有积分项,然后从与这些计算值匹配的概率密度函数中采样t,研究者显著降低了KLUB估计的方差。

在实践中,采样计划的优化是分层进行的。首先,使用启发式计划初始化一个10步的采样计划,然后迭代优化所有中间点,并使用早停机制避免过度优化。接下来,进行两轮细分和进一步微调,以获得40步的采样计划。在每次细分后,只优化新添加的中间点,而保持其他点固定。这使得采样计划的一般“形状”变得固定,从而在这些后期阶段不需要早停。

为了获得与[10, 20, 40]不同的步数的计划,研究者将40步计划视为分段对数线性函数,并对其进行插值以匹配所需的步数。

实验

实验部分旨在展示优化采样计划(Optimizing Sampling Schedules)对扩散模型性能的显著影响。研究者采用了FID得分作为主要的定量评估指标,并通过用户研究提供了定性评估。通过一系列实验验证了AYS(Align Your Steps)框架在不同数据集和模型上的有效性,包括2D玩具数据、标准图像数据集以及文本到图像和视频生成模型。

研究者首先在2D玩具数据集上展示了优化采样计划的优势。这些数据集具有已知的真实分布,使得研究者能够直观地比较不同采样计划生成样本的质量和原始分布的接近程度。实验结果表明,使用优化采样计划的模型能够生成更接近原始分布的样本,并且减少了异常值的出现。

在2D玩具数据分布上使用不同采样计划生成的样本。它说明了优化采样计划可以生成更接近原始分布且异常值更少的样本

接下来,研究者在CIFAR10、FFHQ和ImageNet等标准图像数据集上进行了实验。他们使用了预训练的连续时间扩散模型,并采用了不同的随机和确定性求解器。实验结果显示,优化的采样计划在低前向评估(NFE)次数下显著提高了生成图像的质量,减少了FID(Fréchet Inception Distance)得分,这是评估生成图像质量的常用指标。

在CIFAR10和FFHQ数据集上,使用不同采样计划的FID分数比较。它证实了优化采样计划可以显著提高样本质量

研究者还将AYS框架应用于流行的开源文本到图像模型,如Stable Diffusion 1.5和SDXL。这些模型依赖于分类器自由引导(classifier-free guidance),研究者发现,即使使用默认引导值优化的采样计划,也能在合理的引导值范围内有效。通过用户研究,研究者进一步验证了优化采样计划在图像质量和文本对齐方面的优势。

在Stable Diffusion 1.5和SDXL模型上使用不同采样计划生成的图像。它说明了优化采样计划可以在低NFEs下生成更高质量的图像

对于视频生成,研究者使用Stable Video Diffusion(SVD)模型进行了实验。他们发现,使用优化的采样计划能够改善视频生成中的时间颜色一致性,并解决了视频帧过度饱和的问题。通过用户研究,研究者证明了优化采样计划在视频生成中的实际优势。

在Stable Video Diffusion模型上使用不同采样计划生成的视频。它说明了优化采样计划可以改善视频生成中的时间稳定性

实验结果一致表明,通过优化采样计划,可以在保持相同计算预算的情况下,显著提高扩散模型生成样本的质量。研究者还讨论了优化采样计划对于模型多样性和实时应用的潜在影响。

在ImageNet数据集上,使用不同采样计划的FID、sFID和Inception Score。它进一步证实了优化采样计划在多个指标上的优势

实验结果表明,无论是在图像、视频还是2D玩具数据上,AYS都能显著超越传统的启发式采样计划,实现更快、更准确的数据生成。AYS的通用性和自动化特性,为广泛的应用领域和不同需求的用户提供了一个强大的工具。随着扩散模型在各个领域的不断进步,AYS框架有望成为推动生成模型性能提升的关键技术之一,为未来的研究和实践开辟新的道路。

论文链接:https://arxiv.org/abs/2404.14507

项目地址:https://research.nvidia.com/labs/toronto-ai/AlignYourSteps/

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/24988.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Golang | Leetcode Golang题解之第130题被围绕的区域

题目&#xff1a; 题解&#xff1a; var (dx [4]int{1, -1, 0, 0}dy [4]int{0, 0, 1, -1} ) func solve(board [][]byte) {if len(board) 0 || len(board[0]) 0 {return}n, m : len(board), len(board[0])queue : [][]int{}for i : 0; i < n; i {if board[i][0] O {q…

实验八、地址解析协议《计算机网络》

水逆退散&#xff0c;学业进步&#xff0c;祝我们都好&#xff0c;不止在夏天。 目录 一、实验目的 二、实验内容 &#xff08;1&#xff09;预备知识 &#xff08;2&#xff09;实验步骤 三、实验小结 一、实验目的 完成本练习之后&#xff0c;您应该能够确定给定 IP 地…

【python】python商业客户流失数据模型训练分析可视化(源码+数据集+课程论文)【独一无二】

&#x1f449;博__主&#x1f448;&#xff1a;米码收割机 &#x1f449;技__能&#x1f448;&#xff1a;C/Python语言 &#x1f449;公众号&#x1f448;&#xff1a;测试开发自动化【获取源码商业合作】 &#x1f449;荣__誉&#x1f448;&#xff1a;阿里云博客专家博主、5…

论文复现:Track to Detect and Segment: An Online Multi-Object Tracker

论文下载链接&#xff1a;链接 简单介绍&#xff1a;大多数在线多目标跟踪器在神经网络中独立执行目标检测&#xff0c;无需任何跟踪输入。在本文中提出了一种新的在线联合检测和跟踪模型TraDeS&#xff08;TRAck to DEtect and Segment&#xff09;&#xff0c;利用跟踪线索…

基于协调过滤算法商品推荐系统的设计#计算机毕业设计

基于协调过滤算法商品推荐系统的设计#计算机毕业设计 管理员账户功能包括&#xff1a;系统首页&#xff0c;个人中心&#xff0c;商品管理&#xff0c;论坛管理&#xff0c;商品资讯管理 前台账户功能包括&#xff1a;系统首页&#xff0c;个人中心&#xff0c;论坛&#xf…

MySQL-二进制部署-配置systemctl管理脚本(一)

一 二进制部署MySQL 参考二进制部署mysql 二 MySQL启动&关闭命令 mysqld_sqfe 是 mysqld 父进程&#xff0c;用那个启动都可以 ##启动命令 /usr/local/mysql/bin/mysqld_safe --defaults-file/data/mysql/conf/my.cnf & /usr/local/mysql/bin/mysqld --defaults-fil…

数字校园的优势有哪些

数字化时代下&#xff0c;数字校园已成为教育领域一股显著趋势。数字校园旨在借助信息技术工具对传统校园进行改造&#xff0c;提供全新的教学、管理和服务方式。那么&#xff0c;数字校园究竟具备何种优势&#xff1f;现从三个方面为您详细介绍。 首先&#xff0c;数字校园为教…

STM32项目分享:智能家居(机智云)系统

目录 一、前言 二、项目简介 1.功能详解 2.主要器件 三、原理图设计 四、PCB硬件设计 1.PCB图 2.PCB板及元器件图 五、程序设计 六、实验效果 七、资料内容 项目分享 一、前言 项目成品图片&#xff1a; 哔哩哔哩视频链接&#xff1a; https://www.bilibili.c…

如何使用ERC-20与Sui Coin标准创建Token

区块链使用tokens作为传递价值的基本手段。它们可以是区块链的原生交换单位&#xff0c;也可以是应用中的交换单位&#xff0c;甚至可以在游戏世界中用作货币。tokens还支持Sui和其他区块链上的强大DeFi活动。 以太坊使用ERC-20标准来创建tokens&#xff0c;借用智能合约&…

算法训练营day04

一、24. 两两交换链表中的节点 题目链接&#xff1a;https://leetcode.cn/problems/swap-nodes-in-pairs/description/ 文章讲解&#xff1a;https://programmercarl.com/0024.%E4%B8%A4%E4%B8%A4%E4%BA%A4%E6%8D%A2%E9%93%BE%E8%A1%A8%E4%B8%AD%E7%9A%84%E8%8A%82%E7%82%B9.h…

国产操作系统上Vim的详解03--使用Vundle插件管理器来安装和使用插件 _ 统信 _ 麒麟 _ 中科方德

原文链接&#xff1a;国产操作系统上Vim的详解03–使用Vundle插件管理器来安装和使用插件 | 统信 | 麒麟 | 中科方德 Hello&#xff0c;大家好啊&#xff01;今天给大家带来一篇在国产操作系统上使用Vundle插件管理器来安装和使用Vim插件的详解文章。Vundle是Vim的一款强大的插…

【数据可视化系列】使用Python和Seaborn绘制相关性热力图

热力图&#xff08;Heatmap&#xff09;是一种数据可视化工具&#xff0c;它通过使用颜色的深浅来展示数据矩阵中数值的大小或密度。在热力图中&#xff0c;每种颜色的深浅代表数据的一个特定值或值的范围&#xff0c;通常使用红色、黄色和绿色等颜色渐变来表示数据的热度&…

【TB作品】MSP430F5529 单片机,数字时钟设计与实现,整点时通过蜂鸣器播放音乐进行报时

基于单片机的数字时钟设计与实现 作品名称 基于MSP430单片机的OLED显示数字时钟 作品功能 本作品实现了一个具有时间显示和整点报时功能的数字时钟。通过OLED屏幕显示当前时间&#xff0c;用户可以通过按键设置时间&#xff0c;并在整点时通过蜂鸣器播放音乐进行报时。 作…

MySQL JDBC编程

前言&#x1f440;~ 上一章我们介绍了数据库的索引与事务&#xff0c;本章节我们介绍JDBC编程&#xff0c;使用java代码和数据库打交道 如果各位对文章的内容感兴趣的话&#xff0c;请点点小赞&#xff0c;关注一手不迷路&#xff0c;如果内容有什么问题的话&#xff0c;欢迎各…

双指针算法题笔记

1、移动零 class Solution {public void moveZeroes(int[] nums) {int left0;int right0;for(right0;right<nums.length;right){if(nums[right]!0){if(nums[left]0){int tempnums[left];nums[left]nums[right];nums[right]temp;}left;}}} } 两个指针将一个数组划分三个部分&…

使用OpenPCDet训练与测试多传感器融合模型BEVFusion,OPenPCdet代码架构介绍

引言 在自动驾驶领域&#xff0c;多传感器融合技术是一种常见的方法&#xff0c;用于提高感知系统的准确性和鲁棒性。其中&#xff0c;BevFusion是一种流行的融合方法&#xff0c;可以将来自不同传感器的数据进行融合&#xff0c;生成具有丰富信息的鸟瞰图&#xff08;BEV&…

探索800G数据中心的高速布线解决方案

随着技术的快速进步&#xff0c;数据中心正以前所未有的速度迅速发展。虽然100G和400G数据中心已经普及&#xff0c;但800G数据中心正逐渐流行并展现出增长趋势。由于对高速数据传输的需求呈指数级增长&#xff0c;因此需要高效、可靠的线缆连接解决方案。本文将介绍800G数据中…

Cell-在十字花科植物中年生和多次开花多年生开花行为的互相转化-文献精读21

Reciprocal conversion between annual and polycarpic perennial flowering behavior in the Brassicaceae 在十字花科植物中年生和多次开花多年生开花行为的互相转化 亮点 喜马拉雅须弥芥 和 内华达糖芥 是两个多年生植物模型 MADS-box 基因的剂量效应决定了一年生、二年生…

[图解]企业应用架构模式2024新译本讲解11-领域模型4

1 00:00:00,160 --> 00:00:01,870 好&#xff0c;到这里的话 2 00:00:02,620 --> 00:00:05,060 文字处理器的产品对象就生成了 3 00:00:06,880 --> 00:00:09,180 同样下面就是电子表格 4 00:00:10,490 --> 00:00:11,480 电子表格也同样的 5 00:00:11,490 -->…

用python编撰一个电脑清理程序

自制一个电脑清理程序&#xff0c;有啥用呢&#xff1f;在电脑不装有清理软件的时候&#xff0c;可以解决自己电脑内存不足的情况。 1、设想需要删除指定文件夹中的临时文件和缓存文件。以下是代码。 import os import shutil def clean_folder(folder_path): for root,…