LDM论文解读

LDM论文解读

web/2025/7/12 20:36:19/文章来源:https://blog.csdn.net/wulele2/article/details/140083107

论文名称：High-Resolution Image Synthesis with Latent Diffusion Models

发表时间：CVPR2022
作者及组织：Robin Rombach, Andreas Blattmann, Dominik Lorenz,Patrick Esser和 Bjorn Ommer, 来自Ludwig Maximilian University of Munich & IWR, Heidelberg University, Germany。
开源地址：https://github.com/CompVis/latent-diffusion

前言

本文就是VQGAN和DDPM的结合。在图像的2D特征向量上做加噪去噪，从而降低DDPM在全像素空间上生成造成计算量大的问题。而且在隐变量上训练DDPM在一定程度上并不会损失生成的细节。

1、方法

以VQGAN为例，第一个阶段是感知压缩阶段，旨在去掉无关的像素细节；第二个阶段是语义压缩阶段，让自回归模型来预测图像的语义。而本文就是找到两个压缩阶段之间的一个trade-off。

在这里插入图片描述

1.1.感知压缩阶段

该阶段用T-UNet来提取图像特征向量： $z = E (x)$ ，其中 $z$ 并不像VQGAN中一样是经过codebook后的特征向量，而是未经过codebook，因为作者认为此时 $z$ 天然具有一定归纳偏置，有利于后续生成。而压缩的比例用变量 $f $ 进行表示（比如f=2就表示下采样2倍，f=1就是原始像素空间）。
解码器为 $\hat x = D(z)$ 。
为了防止隐空间的特征向量有高方差，加了两个正则化，KL-reg和VQ-reg，分别对应VAE和VQGAN中的两种损失函数。

1.2.LDM

DM损失函数为：
$\begin{equation} L_{DM}= E_{x,\epsilon~N(0,1),t} [||\epsilon-\epsilon_\theta(x_t,t)||_2^2] \tag{1} \end{equation}$
LDM的损失函数就是将采样样本x变成了隐空间 $z = E (x)$ ：
$\begin{equation} L_{DM}= E_{E(x),\epsilon~N(0,1),t} [||\epsilon-\epsilon_\theta(x_t,t)||_2^2] \tag{2} \end{equation}$
而如果加一些条件（文本，layout，mask…）则损失函数为：
$\begin{equation} L_{LDM}= E_{E(x),y,\epsilon~N(0,1),t} [||\epsilon-\epsilon_\theta(x_t,t, \tau_\theta(y))||_2^2] \tag{3} \end{equation}$

其中条件注入用了CrossAttn。

2、实验

2.1. class conditional

数据集：ImageNet和Celeb-A数据集。
下图表示LDM-4/8收敛速度快，且生成图像的保真度高。
在这里插入图片描述

下图表示相同采样步数，LDM-8吞吐量高且生成图像逼真。
外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

2.2. ConditionalLDM

Text2img训了一个1.45B的模型在LAION-400M。下图说明 class free guide 的trick非常有用，但训练资源加倍。
外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

2.3. rescale

在AE和DM训练中，为了防止隐空间尺度任意变换，对 $z$ 做了一下正则化，如下图所示，若不做正则化，生成图像细节不足。
外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

思考：

LDM还能完成好多其余工作：比如text2img,img inpaint, mask2img, super等。是后续生成模型的基本组件。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/web/37368.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

独一无二的设计模式——单例模式（Java实现）

独一无二的设计模式——单例模式（Java实现）

1. 引言亲爱的读者们，欢迎来到我们的设计模式专题，今天的讲解的设计模式，还是单例模式哦！上次讲解的单例模式是基于Python实现（独一无二的设计模式——单例模式（python实现））的&am…

阅读更多...

web全屏api，实现元素放大全屏，requestFullscreen，exitFullscreen

web全屏api，实现元素放大全屏，requestFullscreen，exitFullscreen

全屏api 主要方法 document.exitFullscreen(); 退出页面全屏状态，document是全局文档对象 dom.requestFullscreen(); 使dom进入全屏状态，异步，dom是一个dom元素 dom.onfullscreenchange（）; 全…

阅读更多...

专题四：Spring源码初始化环境与BeanFactory

专题四：Spring源码初始化环境与BeanFactory

上文我们通过new ClassPathXmlApplicationContext("applicationContext.xml");这段代码看了下Spring是如何将Xml里面内容注入到Java对象中，并通过context.getBean("jmUser");方式获得了一个对象实例，而避开使用new 来耦合。今天我们…

阅读更多...

【TB作品】智能台灯控制器，ATMEGA128单片机，Proteus仿真

【TB作品】智能台灯控制器，ATMEGA128单片机，Proteus仿真

题目 8 ：智能台灯控制器基于单片机设计智能台灯控制器，要求可以调节 LED 灯的亮度，实现定时开启与关闭， 根据光照自动开启与关闭功能。具体要求如下： （1）通过 PWM 功能调节 LED 灯亮度&#x…

阅读更多...

【本地调试】使用 Nginx 和 Hosts 文件实现本地开发调试请求转发

【本地调试】使用 Nginx 和 Hosts 文件实现本地开发调试请求转发

可以按照以下 nginx 配置来设置，通过 nginx 和 host 将网页的请求转发到本地的后端服务器，以方便本地开发调试一、nginx 配置 worker_processes 1;events {worker_connections 1024; }http {include mime.types;default_type application/js…

阅读更多...

【Python】数据分析中的常见统计量：中位数

【Python】数据分析中的常见统计量：中位数

那年夏天我和你躲在这一大片宁静的海直到后来我们都还在对这个世界充满期待今年冬天你已经不在我的心空出了一块很高兴遇见你让我终究明白回忆比真实精彩 🎵 王心凌《那年夏天宁静的海》中位数（Median）是统计学…

阅读更多...

深入浅出3D感知中的优化与基于学习的技术1（原创系列）

深入浅出3D感知中的优化与基于学习的技术1（原创系列）

近期几乎看了所有有关NERF技术论文，本身我研究的领域不在深度学习技术方向，是传统的机器人控制和感知。所以总结了下这部分基于学习的感知技术，会写一个新的系列教程讲解这部分三维感知技术的发展到最新的技术细节，并支持自己最近…

阅读更多...

娱乐圈发生震动，AI大模型技术已经取代了SNH48的小偶像？

娱乐圈发生震动，AI大模型技术已经取代了SNH48的小偶像？

自2023年以来，全球都被包裹在AI的惊天大潮之中，所有行业都在主动或被动地迎接改变。目前，各行业已经有大量公司正在把AI作为自身发展的最佳路径。其中，娱乐行业作为最被人们熟知的行业也在面对AI的发展时，发生着巨大变…

阅读更多...

解析Java中1000个常用类：Currency类，你学会了吗？

解析Java中1000个常用类：Currency类，你学会了吗？

在线工具站推荐一个程序员在线工具站：程序员常用工具（http://cxytools.com），有时间戳、JSON格式化、文本对比、HASH生成、UUID生成等常用工具，效率加倍嘎嘎好用。程序员资料站推荐一个程序员编程资料站：程序员的成长之路（http://cxyroad.com），收录了一些列的技术教程…

阅读更多...

解析connectionReset异常的原因与解决方案

解析connectionReset异常的原因与解决方案

解析connectionReset异常的原因与解决方案大家好，我是免费搭建查券返利机器人省钱赚佣金就用微赚淘客系统3.0的小编，也是冬天不穿秋裤，天冷也要风度的程序猿！今天我们将深入探讨Java中connectionReset异常的原因及其解决方案。这…

阅读更多...

遥远星辰中的觉醒：超大质量黑洞的苏醒与人类的未来

遥远星辰中的觉醒：超大质量黑洞的苏醒与人类的未来

遥远星辰中的觉醒：超大质量黑洞的苏醒与人类的未来在浩渺无垠的宇宙中，星辰的闪烁仿佛是时间的涟漪，穿越亿万年的距离，抵达我们的眼眸。而在这片星辰大海的深处，一个惊人的现象正在悄然上演——距离地球3.6亿光年之遥…

阅读更多...

Unity获取剪切板内容粘贴板图片文件文字

Unity获取剪切板内容粘贴板图片文件文字

最近做了一个发送消息的unity项目，需要访问剪切板里面的图片文字文件等，翻遍了网上的东西，看了不是需要导入System.Windows.Forms（关键导入了unity还不好用，只能用在纯c#项目中），所以我看了下py…

阅读更多...

GMSB文章九：微生物的相关关系组间波动

GMSB文章九：微生物的相关关系组间波动

欢迎大家关注全网生信学习者系列： WX公zhong号：生信学习者Xiao hong书：生信学习者知hu：生信学习者CDSN：生信学习者2 介绍计算配对微生物在组间的相关关系波动情况进而评估不同分组的微生物状态。secom_linear 函数…

阅读更多...

线性表与顺序存储结构（下）

线性表与顺序存储结构（下）

前言接上文（线性表与顺序存储结构（上））。这些顺序存储结构的方法在顺序表上下卷中已经提到过，但是有些许不同，可以为理解顺序表提供更丰富的视角。（不过最主要的区别在于顺序表上下卷中的顺…

阅读更多...

机器人关节 viscous friction与结构阻尼

机器人关节 viscous friction与结构阻尼

Viscous Friction（粘性摩擦） 定义：Viscous friction，也被称为粘性摩擦或粘滞摩擦，是机器人关节在运动过程中由于接触面之间的相互作用而产生的摩擦力。这种摩擦力与关节的运动速度有关，通常表现为速度越大&…

阅读更多...

HarmonyOS开发实战：分布式文件系统-hmdfs

HarmonyOS开发实战：分布式文件系统-hmdfs

分布式文件系统提供跨设备的文件访问能力，适用于如下场景： 两台设备组网，A 设备可以无感读取和修改 B 设备的文件。边缘服务器可以自动同步组网中多个嵌入式设备中的文件数据。 hmdfs 在分布式软总线动态组网的基础上，为网络上…

阅读更多...

Ubuntu添加系统字体

Ubuntu添加系统字体

（2024.6.30） 系统字体保存路径在/usr/share/fonts下，如果此目录下缺少字体，则使用其他可视化api（如Python的pygame库）的默认配置时可能会出现乱码问题。往Ubuntu中添加字体的方法方法一：手…

阅读更多...

Ant Design Vue：如何提升你的前端开发效率？

Ant Design Vue：如何提升你的前端开发效率？

目录 1. Ant Design Vue 简介 1.1 特性概览 1.2 安装与配置 2. 常用组件及使用示例 2.1 Button 按钮 2.2 Form 表单 2.3 Table 表格 2.4 Modal 对话框 3. 常见问题及解决方案 3.1 组件无法渲染问题描述解决方案 3.2 表单验证失效问题描述解决方案 3.3 表格…

阅读更多...

Python | 计算位涡平流项

Python | 计算位涡平流项

写在前面最近忙着复习、考试…都没怎么空敲代码，还得再准备一周考试。。。等考完试再慢慢更新了，今天先来浅更一个简单但是使用的python code 在做动力机制分析时，我们常常需要借助收支方程来诊断不同过程的贡献，其中最常见的一…

阅读更多...

51单片机-点亮LED灯

51单片机-点亮LED灯

目录新建项目选择型号添加新文件到该项目设置字体和utf-8编码二极管如何区分正负极原理：CPU通过寄存器来控制硬件电路用P2寄存器的值控制第一个灯亮进制转换编译查看P2寄存器的地址生成HEX文件把代码下载到单片机中新建项目选择型号 stc是中国生产的、这个里面…

阅读更多...

最新文章