浅析扩散模型与图像生成【应用篇】(十七)——LDM

17. High-Resolution Image Synthesis with Latent Diffusion Models

  该文首次提出在潜在特征空间中的扩散模型LDM,也是大名鼎鼎的Stable Diffusion(SD)模型的基础。不同于之前的扩散模型直接在图像维度上进行扩散和去噪,LDM首先训练了一个自动编码器将图像压缩至一个潜在的特征空间中,并在该低维空间内进行扩散和去噪,最后再通过一个解码器恢复图像维度。这种方法能够大大降低计算的复杂度,提升训练和推理的速度,并且取得了更好的生成效果,已经成为后续许多图像生成方法的基础。
在这里插入图片描述
  在介绍文章的动机时,作者提到之前的扩散模型是直接在图像上进行扩散和去噪的,为了保证计算复杂度处于可以接受的区间,通常只能对小尺寸的图像进行处理,如64 * 64,128 * 128。即便如此,因为需要经过多次的迭代,训练和推理的时间都非常长,训练一个扩散模型往往需要几百个GPU天。但作者发现,图像的压缩过程会经历两个阶段:感知压缩和语义压缩,如上图所示。在感知压缩阶段,图像仅仅损失一些无关紧要的高频细节信息,而在语义压缩阶段,才会对图像的语义性或概念性内容产生影响。
  基于上述洞见,作者首先使用一个自动编码器,将图像进行大幅度压缩,并将其映射到一个潜在特征空间中。根据实验结果,压缩比例在4或8倍时,能够取得最好的生成效果和速度之间的平衡。自动编码器使用感知损失和基于块的对抗目标损失函数进行训练,并且引入了一个KL惩罚作为正则化项,目的是避免潜在特征空间中的方差过大。这里要注意地一点是,经过编码后的特征 z z z仍保持2D的结构,而不是像其他基于Transformer的方法将其转化为1D的特征。作者解释这使得后面的扩散模型能够按照卷积的方式进行处理,更好的利用图像自身的归纳偏置(局部相关性)。
在这里插入图片描述
  得到特征图 z z z后,就可以对其进行一个常规的扩散和去噪处理了。噪声估计模型 ϵ θ \epsilon_{\theta} ϵθ仍采用了U-net结构,但其中的自注意力层改为了Transformer块,即由自注意力层、MLP和交叉注意力层构成的模块,这是为了方便引入其他模态的条件信息。损失函数仍采用了简化的均方差损失,只是将噪声图像 x t x_t xt改为了噪声特征 z t z_t zt, L L D M : = E E ( x ) , ϵ ∼ N ( 0 , 1 ) , t [ ∥ ϵ − ϵ θ ( z t , t ) ∥ 2 2 ] L_{L D M}:=\mathbb{E}_{\mathcal{E}(x), \epsilon \sim \mathcal{N}(0,1), t}\left[\left\|\epsilon-\epsilon_{\theta}\left(z_{t}, t\right)\right\|_{2}^{2}\right] LLDM:=EE(x),ϵN(0,1),t[ϵϵθ(zt,t)22]经过 T T T次的去噪处理后,得到重建的潜在特征 z ~ \tilde{z} z~,再经过一个解码器得到生成图像 x ~ \tilde{x} x~.

图中的重建特征仍使用了 z z z来表示,这里为了与原始输入的特征 z z z区分,使用 z ~ \tilde{z} z~来表示

  为了引入其他的条件信息,如类别标签、文本描述、语义分割图等,作者针对不同形式的条件输入 y y y训练了相应的条件编码器 τ θ ( y ) \tau_{\theta}(y) τθ(y),可以将条件输入转化为特征向量。然后,利用U-net中的交叉注意力层将其与原始的图像特征 z z z进行融合 Q = W Q ( i ) ⋅ φ i ( z t ) , K = W K ( i ) ⋅ τ θ ( y ) , V = W V ( i ) ⋅ τ θ ( y ) Q=W_{Q}^{(i)} \cdot \varphi_{i}\left(z_{t}\right), K=W_{K}^{(i)} \cdot \tau_{\theta}(y), V=W_{V}^{(i)} \cdot \tau_{\theta}(y) Q=WQ(i)φi(zt),K=WK(i)τθ(y),V=WV(i)τθ(y)即交叉注意力层中的Q向量来自图像特征,而K和V向量均来自条件特征。对于文本条件,编码器可选择Bert或者CLIP中的文本编码器;对于布局条件,如边界框,可以对位置坐标和类别进行编码。
  经过训练后,LDM在多个下游任务中都取得了非常好的效果,如图像生成、图像修复、超分提升等。
无条件图像生成
在这里插入图片描述
超分提升:
在这里插入图片描述
图像修复:
在这里插入图片描述
  其中最为重要的应用肯定是文生图模型StableDiffusion,在此基础上又陆续推出了SD-1.1-1.5多个版本的改进模型,大多是对训练数据集,训练周期数,以及编码器的修改。其中SD-XL是一个较大的改进版本,其采用了CLIP ViT-L 和 OpenCLIP ViT-bigG 两个文本编码器,并且将图像的大小和裁剪位置都作为条件信息引入到噪声估计模型中,最后额外单独训练了一个优化器用于高质量高分辨率的图像生成。在SDXL-turbo中,还利用了蒸馏技术,减少了生成过程的迭代次数,提升了生成速度。更加详细的介绍可参考这篇博客:Stable Diffusion ———LDM、SD 1.0, 1.5, 2.0、SDXL、SDXL-Turbo等版本之间关系现原理详解。近期Stability AI公司又发布了最新的SD3模型,其中使用了与Sora同源的DiT模型,但具体的论文和代码尚未公开。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/4659.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

C++拷贝构造函数的合成

默认构造函数和拷贝构造函数在必要的时候才由编译期合成出来 文章目录 拷贝构造函数编译器合成拷贝构造函数的四种情况情况一 一个类有一个带有拷贝构造函数的类对象成员变量情况二 派生类的基类有一个拷贝构造函数类声明了一个或多个虚函数情况四 类派生自一个继承串联且有一个…

JUC-并发编程19-定时任务定时线程池-ScheduledThreadPoolExecutor

1、结构图 2、初识 ScheduledThreadPoolExecutor用来处理延时任务或定时任务。 流程如下: 2.1 定时任务分为四种 如下: 未来执行一次的任务,无返回值; 未来执行一次的任务,有返回值; 未来按固定频率重复…

安川YASKAWA机器人FS100控制箱维修全攻略

本文将一起探讨安川机器人控制箱维修和YASKAWA机械手FS100控制柜故障,从故障诊断到维修技巧。注意,在安川机械臂控制器FS100维修过程中,遇到复杂的问题,不要犹豫,及时联系子锐机器人,让您的机器人重获新生&…

chrome 安装devtools

chrome 安装devtools 下载安装 链接:https://github.com/vuejs/devtools 选择对应版本: 安装yarn 下载 npm install -g yarn --registryhttps://registry.npmmirror.com进入下载的目录安装依赖 yarn install --registryhttps://registry.npmmirror.…

一篇了解reactor框架特性

一篇了解reactor框架特性 本文档的一些典型的名词如下: Publisher(发布者)、Subscriber(订阅者)、Subscription(订阅 n.)、subscribe(订阅 v.)。event/signal&#xff0…

抖音 通用交易系统 下单 密钥生成

已PHP为例 前提提条件 必须在 linux 系统中 生成 准备工作 在小程序中 生成应用公匙 把生成的公匙 复制 在linux 系统中 创建文件 private_key.pem 并将公匙粘贴 接下来打开命令 执行命令即可 openssl genrsa -out private_key.pem 2048 rsa -in private_key.pem -pubo…

分治策略 --- 快排归并

目录 分治-快排 一、颜色分类 二、排序数组 三、数组中的第K个最大元素 四、库存管理 分治-归并 一、排序数组 二、交易逆序对的总数 三、计算右侧小于当前元素的个数 四、翻转对 分治是一种思想,也就是将大问题分解成小问题,一直分到小问题可…

【Camera KMD ISP SubSystem笔记】CAM SYNC与DRQ②

DRQ的作用: DRQ负责调度管理pipeline里的node处理逻辑(通过node之间的dependency依赖机制) 利用多线程并行处理Pipeline中并行的node,加快处理速度 DRQ运转流程: DRQ先告诉node fill dependency, 此时seq id 为0…

如何优雅的实现 iframe 多层级嵌套通讯

前言 在前端开发项目中,不可避免的总会和 iframe 进行打交道,我们通常会使用 postMessage 实现消息通讯。 如果存在下面情况: iframe 父子通讯iframe 同层级通讯iframe 嵌套层级通讯 当面对这种复杂的情况的时候,通讯不可避免…

Unity 物体触碰事件监听

声明委托 public delegate void MyDelegate(Collider trigger); C# 委托(Delegate) | 菜鸟教程 (runoob.com)https://www.runoob.com/csharp/csharp-delegate.html 定义委托 public MyDelegate onTriggerEnter; public MyDelegateonTriggerStay; pub…

用来传输文件的协议-FTP

一.FTP协议--文件传输协议 1.了解FTP协议 (1)FTP服务是用来传输文件的协议 FTP(File Transfer Protocol,文件传输协议)是TCP/IP协议组中的协议之一,用于互联网上的控制文件的双向传输。是传输文件到Linu…

《Fundamentals of Power Electronics》——全桥型隔离降压转换器

以下是关于全桥型隔离降压转换器的相关知识点: 全桥变压器隔离型降压转换器如下图所示。 上图展示了一个具有二次侧绕组中心抽头的版本,该电路常用于产生低输出电压。二次侧绕组的上下两个绕组可以看作是两个单独的绕组,因此可以看成是具有变…

Internal server error: [less] Unrecognised input

我之前查了资料,网上有的人说是 less 的配置不正确(这种问题引起的可以查找其他博客看),但是后面经过我慢慢的查找,还有一种可能,就是 less 的写法不对,下面我来解释一下我的错误和处理过程 在…

kaggle无法注册怎么办

在浏览kaggle网站,或者是参加kaggle竞赛时,常常会遇到需要登陆kaggle账号的情况。而在注册时,却发现无论如何也无法弹出人机识别的验证码,导致无法注册成功。本文会手把手的讲解一种注册kaggle的方法(edge浏览器&#…

安装依赖报错前端安装某个依赖安装不上可能是node版本过高 升级或者降低node版本方式

安装依赖报错安装某个依赖安装不上可能是node版本过高 升级或者降低node版本方式 安装某个依赖安装不上 或者node版本过高 升级或者降低node版本 收藏关注一下吧 开发中难免总会需要切换node版本 需要的时候在找麻烦 主页 中还有更多干货分享

分享开放原子AtomGit开源协作平台评测报告

AtomGit平台的总体介绍 开放原子开源基金会是致力于推动全球开源事业发展的非营利机构,于 2020 年 6 月在北京成立,由阿里巴巴、百度、华为、浪潮、360、腾讯、招商银行等多家龙头科技企业联合发起。目前有三个主要机构设置,技术监督委员会&…

You need know something from Xcode 9

xcode 9 一些快捷的功能使用介绍 首先是弹框 目前发现弹框中的提取方法等功能存在一些问题,期待后续的版本能解决这些问题,弹框里面主要包含跳转变量或者方法的跳转、快捷帮助、折叠方法、重命名方法名称、提取方法等功能 笔者觉得rename功能比较好用&…

【新手入门】Git的使用方法,上传自己的项目到GitHub上

Git新手教程 一、Git下载安装二、初始化设置1.网端设置2.用户设置 三、开始上传自己项目1.创建新文件夹,克隆项目地址2.上传文件3.成功运行并上传的界面 报错1.fatal: unable to access https://github.com/ssrzero123/STF-YOLO.git/: error setting certificate fi…

NDK 编译(二)—— NDK 编译与集成 FFmpeg

NDK 编译系列文章共三篇,目录如下: NDK 编译(一)—— Linux 知识汇总 NDK 编译(二)—— NDK 编译与集成 FFmpeg NDK 编译(三)—— CMake 原生构建工具 在使用 NDK 进行音视频开发时&…

icloud里面的通讯录怎么全部导出,通讯录格式如何转换,简单!

随着科技的发展,我们的日常生活越来越离不开手机和各种应用程序。通讯录作为手机中最重要的功能之一,记录着我们的亲朋好友、同事和业务伙伴的联系方式。因此,定期备份通讯录变得尤为重要。iCloud作为苹果公司提供的一项云服务,可…