读《Diffusion Models: A Comprehensive Survey of Methods and Applications》综述

读《Diffusion Models: A Comprehensive Survey of Methods and Applications》综述

关于此文,我的一个见解想法,重点关注他怎么描述 「Diffusion Model」的引用的,以及未来方向就好了。当然从这篇文章可以知道 「Diffusion Model」的一个基石是什么,以及他跟其他生成模型的一个简单的关系,让我有对 「Diffusion Model」有一个更好的理解吧。

文章概述:

扩散模型已成为一种强大的新型深度生成模型,在图像合成、视频生成和分子设计等许多应用中都具有破纪录的性能。在这篇综述中,我们概述了迅速扩展的扩散模型研究,将研究分为三个关键领域:高效采样、改进的似然估计和处理具有特殊结构的数据。我们还讨论了将扩散模型与其他生成模型相结合以获得增强结果的潜力。我们进一步回顾了扩散模型在计算机视觉、自然语言处理、时间数据建模以及其他科学学科的跨学科应用等领域的广泛应用。这篇综述旨在对扩散模型的状态进行背景化、深入的观察,确定重点关注领域并指出进一步探索的潜在领域。

Diffusion Model」的基石论文

  • Denoising Diffusion Probabilistic Models DDPM
  • Score-Based Generative Models SGM 这个没有找到专门讲这个的论文,在综述中引用的论文是 [1907.05600] Generative Modeling by Estimating Gradients of the Data Distribution (arxiv.org) [2006.09011] Improved Techniques for Training Score-Based Generative Models (arxiv.org)
  • Stochastic Differential Equations Score SDE 很抽象这个也没有专门说的 [2011.13456] Score-Based Generative Modeling through Stochastic Differential Equations (arxiv.org)

关于这三个模型一个关系补充 20240530 Diffusion 模型有三个基础,百变不离其踪,都是由下面三个演变而来。:

  1. DDPM 这个是一个关于概率的模型——离散的
  2. SGM 这个是上面那个的升级版,通过一个得分函数(maybe),通过推导可以得到和 DDPM 一样的损失函数——离散的
  3. Score-SDM 就是上面两个模型的一个综合——连续的

关于上面三篇论文呢,这篇综述的作者也只是简单的介绍,要是想细读的可以点链接进入下载浏览。

感觉就是 DDPM 可以仔细的看一下,其他两个模型应该是更早提出来的,思想被应用在了 Diffusion 上面吧。

文章给的这个图不错:列出了连续和离散设置下的三类扩散模型以及相应的文章和年份。

在这里插入图片描述

关于 Diffusion Model 和其他模型的关系

扩散模型被纳入不同的生成模型。

在这里插入图片描述

将扩散模型与其他生成模型结合起来的研究示例,例如:VAE[235],其中扩散模型应用于潜在空间,GAN[284],其中噪声被注入到鉴别器输入,正则化流[334],其中噪声注入到流的前向和后向过程中,自回归模型[105],其中训练目标类似于扩散模型,以及EBM[75],其中通过扩散恢复似然来学习一系列EBM。

在这里插入图片描述

扩散模型的应用

扩散模型最近因其灵活性和强度而被应用于解决各种具有挑战性的现实任务。我们根据任务将这些应用分为六个不同的类别:计算机视觉、自然语言处理、时间数据建模、多模态学习、稳健学习和跨学科应用。对于每个类别,我们都对任务进行了简要介绍,然后详细解释了如何应用扩散模型来提高性能。表 3 总结了使用扩散模型的各种应用。

在这里插入图片描述

在介绍扩散模型的应用之前,我们先介绍扩散模型的两个基本应用范式,即无条件扩散模型和条件扩散模型。作为生成模型,扩散模型的发展历史与 VAE、GAN、流模型等生成模型非常相似,都是先发展出无条件生成,然后紧接着发展出条件生成。无条件生成通常被用来探索生成模型性能的上限,而条件生成则更多是应用层面的内容,因为它可以让我们根据自己的意图来控制生成结果。扩散模型除了保证生成质量和样本多样性外,尤其在可控性方面更胜一筹。 非条件扩散模型的主要算法在第2-5节已经讲得很清楚了,下一篇我们主要讨论条件扩散模型如何应用于不同应用和不同形式的条件,并选择一些典型场景进行演示。

扩散模型中的条件机制。利用不同形式的条件来指导扩散模型的生成方向被广泛使用,例如标签、分类器、文本、图像、语义图、图形等。然而,有些条件是结构性的和复杂的,因此对它们进行条件化的方法值得讨论。主要有四种条件机制,包括连接、基于梯度、交叉注意和自适应层规范化(adaLN)。连接意味着扩散模型将信息指导与扩散过程中的中间去噪目标连接起来,例如标签嵌入和语义特征图。基于梯度的机制将与任务相关的梯度纳入扩散采样过程以实现可控生成。例如,在图像生成中,可以在噪声图像上训练辅助分类器,然后使用梯度引导扩散采样过程朝向任意类标签。交叉注意在指导和扩散目标之间执行注意消息传递,这通常在去噪网络中以分层方式进行。 adaLN 机制遵循了 GAN [126] 中自适应归一化层 [211] 的广泛使用,可扩展扩散模型 [208] 探索用自适应层归一化取代基于 Transformer 的扩散主干中的标准层规范层。它不是直接学习维度上的尺度和移位参数,而是从时间嵌入和条件的总和中回归它们。

标签和分类器上的条件扩散。在标签的指导下对扩散过程进行条件化是将所需属性添加到生成样本中的直接方法。然而,当标签有限时,很难使扩散模型充分捕获整个数据分布。SGGM [319] 提出了一种以自生成的分层标签集为条件的自引导扩散过程,而 You 等人 (2023) [325] 通过对偶伪训练证明了大规模扩散模型和半监督学习器在少数标签下互惠互利。Dhariwal 和 Nichol [53] 提出了分类器指导,通过使用额外训练的分类器来提高扩散模型的样本质量。Ho 和 Salimans [102] 联合训练了一个条件和非条件扩散模型,发现可以将得到的条件和非条件分数结合起来,以获得与使用分类器指导获得的样本质量和多样性之间的权衡

文本、图像和语义图上的条件扩散。最近的研究开始在更多语义(如文本、图像和语义图)的指导下对扩散过程进行条件化,以更好地表达样本中的丰富语义。DiffuSeq [78] 以文本为条件,并提出了一个 seq-to-seq 扩散框架,可帮助完成四项 NLP 任务。SDEdit [186] 以样式化图像为条件进行图像到图像的转换,而 LDM [235] 将这些语义条件与灵活的潜在扩散统一起来。请注意,如果条件和扩散目标属于不同的模态,预对齐 [223, 315] 是加强引导扩散的实用方法。unCLIP [223] 和 ConPreDiff [317] 利用 CLIP 潜在特征进行文本到图像的生成,从而使图像和文本之间的语义保持一致。RPG [318] 创新地以互补的矩形和轮廓区域为条件,以实现组合文本到图像的生成和复杂的文本引导的图像编辑。图 4 显示了 RPG 与其他模型之间的架构比较。

在这里插入图片描述

图上的条件扩散。图结构数据通常表现出节点之间的复杂关系,因此对于扩散模型来说,图上的条件化极其困难。SGDiff [315] 提出了第一个专门为场景图到图像生成而设计的扩散模型,该模型采用了一种新颖的掩蔽对比预训练。这种掩蔽预训练范式具有通用性,可以扩展到任何跨模态扩散架构,用于粗粒度和细粒度指导。其他图条件扩散模型主要用于图生成。GeoDiff [307] 以二维分子图为条件,通过保证等变马尔可夫核的旋转和平移不变性来生成三维分子构象。Luo 等人(2022 年)[176] 和 DiffSBDD [247] 提出以三维蛋白质图为条件,生成具有等变扩散的三维抗体或分子。

关于应用具体讲什么感觉根据自己的兴趣去了解就好了,

主要还是多看看这个图了解应用方向:
在这里插入图片描述

未来方向

扩散模型研究尚处于早期阶段,在理论和实证方面都有很大改进潜力。如前面章节所述,关键研究方向包括有效采样和提高可能性,以及探索扩散模型如何处理特殊数据结构、与其他类型的生成模型接口以及如何针对一系列应用进行定制。此外,我们预见到未来对扩散模型的研究可能会扩展到以下途径。 重新审视假设。扩散模型中的许多典型假设需要重新审视和分析。例如,扩散模型的前向过程完全消除数据中的任何信息并使其等同于先验分布的假设可能并不总是成立。实际上,在有限的时间内完全删除信息是不可能实现的。了解何时停止前向噪声过程以在采样效率和样本质量之间取得平衡是非常有趣的[72]。薛定谔桥和最优传输方面的最新进展 [35, 48, 50, 250, 257] 提供了有希望的替代解决方案,为能够在有限时间内收敛到指定先验分布的扩散模型提出了新的公式。 理论理解。扩散模型已经成为一个强大的框架,尤其是它是唯一一个可以在大多数应用中与生成对抗网络 (GAN) 相媲美而无需诉诸对抗训练的框架。利用这一潜力的关键是了解为什么以及何时扩散模型比特定任务的替代方案更有效。重要的是要确定哪些基本特征将扩散模型与其他类型的生成模型区分开来,例如变分自动编码器、基于能量的模型或自回归模型。 理解这些区别将有助于阐明为什么扩散模型能够生成质量极佳的样本,同时实现最高似然。同样重要的是需要制定理论指导,以系统地选择和确定扩散模型的各种超参数。 潜在表示。与变分自编码器或生成对抗网络不同,扩散模型在潜在空间中提供良好数据表示的效果较差。因此,它们不能轻易用于基于语义表示处理数据等任务。此外,由于扩散模型中的潜在空间通常具有与数据空间相同的维数,因此采样效率会受到负面影响,并且模型可能无法很好地学习表示方案 [116]。 AIGC 和扩散基础模型。从稳定扩散到 ChatGPT,人工智能生成内容 (AIGC) 在学术界和工业界都引起了广泛关注。生成预训练是 GPT-1/2/3/4 [200, 203, 221, 222] 和 (Visual) ChatGPT [290] 的核心技术,它配备了大型语言模型 (LLM) [274] 和 Visual Foundation 模型,表现出令人鼓舞的生成性能和令人惊讶的突发能力 [288] [19,326,329]。将生成式预训练(仅解码器)从 GPT 系列转移到扩散模型类,评估基于扩散的生成性能,并分析扩散基础模型的涌现能力,这很有趣。此外,将 LLM 与扩散模型相结合已被证明是一个新的有前途的方向 [318]。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/19874.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

HR人才测评,企业人才综合素质测评?

HR企业人才综合素质测评是一种评估企业人才综合素质的方法。该测评方法通过对人才的综合能力、专业技能、沟通协调能力、团队合作能力、领导管理能力等方面进行评估,以期为企业提供更全面、更客观、更科学的人才选拔和管理的依据。 点击这里了解:『企业…

强化学习的应用场景:何时使用强化学习?

RL 强化学习的应用场景:何时使用强化学习?强化学习的基本原理适用场景1. 连续决策过程2. 不完全信息3. 动态环境4. 长期回报优化5. 无明确监督信号 实际案例游戏AI机器人控制自主驾驶金融交易推荐系统 结论 强化学习的应用场景:何时使用强化学…

免费生物蛋白质的类chatgpt工具助手copilot:小分子、蛋白的折叠、对接

参考: https://310.ai/copilot 可以通过自然语言通话晚上蛋白质的相关处理:生成序列、折叠等 应该是agent技术调用不同工具实现 从UniProt数据库中搜索和加载蛋白质。使用ESM Fold方法折叠蛋白质。使用310.ai基础模型设计新蛋白质。使用TM-Align方法比较蛋白质。利用Protei…

整合框架(spring...) 统一异常处理

1、 我们想让异常结果也显示为统一的返回结果对象,并且统一处理系统的异常信息,那么需要统一异常处理。 附加:创建封装错误状态码和错误消息VO 代码如下: Result import io.swagger.v3.oas.annotations.media.Schema; impo…

MOE模型入门

一、目录 定义:MOE架构代表类型如何解决expert 平衡的?而不是集中到某一专家。如何训练、微调MOE模型?基础架构优缺点不同MOE 模型实现方式、训练方法 二、实现 定义:MOE架构 MOE:混合专家模型,多个专家共同决策的模…

Redis 探索之旅(进阶)

目录 今日良言:从不缺乏从头开始的勇气 一、持久化 1、RDB 2、AOF 二、Redis 的事务 三、主从复制 四、哨兵模式 五、集群模式 六、缓存 七、分布式锁 今日良言:从不缺乏从头开始的勇气 一、持久化 持久化就是把数据存储在硬盘上,无…

CUDA学习(2)

什么是CUDA CUDA(Compute Unified Device Architecture),统一计算设备架构,英伟达推出的基于其GPU的通用高性能计算平台和编程模型。 借助CUDA,开发者可以充分利用英伟达GPU的强大计算能力加速各种计算任务。 软件生…

保险 - day12 时序数据库influxdb

时序数据库 时序数据库是近几年一个新的概念,与传统的Mysql关系型数据库相比,它的最大的特点是:数据按照时间顺序存储。举例来说,日志数据,是以时间顺序存储的,所以用时序数据库存储是一种很好的选择。使用…

【stm32】stm32f407 ch340下载

一、接线 1、ch340 Vcc短接3v3 5v---------5v GND-----GND TX ------RX RX --------TX 2、stm32F407 如上图,我们需要进入isp下载模式,接线图如下 二、下载 使用FlyMcu选择你要下载的程序文件中的.hex文件, 然后配置图如下&#xff1…

Visual Studio的桌面快捷方式图标不显示

1.问题描述 以下以Visual Studio 2019举例, 正常图标: 但是当前Visual Studio的桌面快捷方式图标不显示了? 2.问题原因分析 Visual Studio 2019桌面快捷方式图标不显示可能由以下几个原因造成: 图标缓存问题:Windo…

五种主流数据库:常用数据类型

在设计数据库的表结构时,我们需要明确表中包含哪些字段以及字段的数据类型。字段的数据类型定义了该字段能够存储的数据种类以及支持的操作。 本文将会介绍五种主流数据库中常用的数据类型以及如何选择合适的数据类型,包括 MySQL、Oracle、SQL Server、…

【Linux】从零开始认识进程间通信 —— 共享内存

送给大家一句话: 吃苦受难绝不是乐事一桩,但是如果您恰好陷入困境,我很想告诉您:“尽管眼前十分困难,可日后这段经历说不定就会开花结果。”请您这样换位思考、奋力前行。 -- 村上春树 🔆🔆&…

[数据集][目标检测]打架检测数据集VOC格式3146张2类别

数据集格式:Pascal VOC格式(不包含分割的txt文件,仅仅包含jpg图片和对应的xml) 图片数量(jpg文件个数):3146 标注数量(xml文件个数):3146 标注类别数:2 标注类别名称:["nofight","fight"] 每个类别…

c# - 运算符 << 不能应用于 long 和 long 类型的操作数

Compiler Error CS0019 c# - 运算符 << 不能应用于 long 和 long 类型的操作数 处理方法 特此记录 anlog 2024年5月30日

PBR系列-物理材质(上)

作者&#xff1a;游梦 对PBR系列文章感兴趣还可以看前文&#xff1a; PBR系列 - 物理光源 PBR系列-光之简史 前面两篇文章分别介绍了物理光源与光学研究简史&#xff0c;在对光有了简单认识之后&#xff0c;再认识物理材质会发现其实本质上还是对光的研究&#xff0c;再深入…

python爬取每日天气情况

python爬取每日天气情况 一、项目简介二、完整代码一、项目简介 本次爬取的目标数据来源于天气网,数据所在的页面如下图所示,本次任务较为简单,按照正常操作流程操作即可,即抓包分析数据接口,发送请求获取数据,解析数据并持久化存储。发送请求使用requests库,解析数据使…

CMake的原理与使用方法

一.为什么需要CMake&#xff0c;什么是CMake 1.由于各种make工具遵循不同的规范和标准&#xff0c;所执行的Makefile格式也不同&#xff0c;例如 GNU Make &#xff0c;QT 的 qmake &#xff0c;微软的 MS nmake&#xff0c;BSD Make&#xff08;pmake&#xff09;&#xff0c;…

【3GPP IAB】NR IAB推荐架构

1 概述 3GPP所有提交给RAN-3 #99的IAB多跳设计都可以用五个架构参考图来表示。这些参考图的不同之处是需要对接口进行修改&#xff0c;或者需要额外的功能&#xff0c;例如完成多跳转发。这五个体系结构被分为两个体系结构组。这些架构的主要特点可以概括如下: 架构组1:由架构1…

java期末突击

目录 1. 快速入门 2. 类 3. 成员方法 4. 构造器 5. 单例模式 6. 继承 7. 抽象类 8. 多线程&#xff08;Thread与Runnable&#xff09; 1. 快速入门 public class Hello {public static void main(String[] args){System.out.println("Hello,World&q…

从头开始构建GPT标记器

从头开始构建GPT标记器 对于GPT Tokenizer&#xff0c;论文《Language Models are Unsupervised Multitask Learners》中介绍了一种字节级编码作为LLM的标记化机制&#xff1a; The vocabulary is expanded to 50,257. We also increase the context size from 512 to 1024 to…