扩散模型论文概述（二）：Google系列工作【学习笔记】

扩散模型论文概述（二）：Google系列工作【学习笔记】

bicheng/2025/7/4 2:23:37/文章来源:https://blog.csdn.net/zly19980718/article/details/144947055

视频链接：扩散模型论文概述（二）：Google系列工作_哔哩哔哩_bilibili

本视频讲的是Google在图像生成的工作。

同样，第一张图片是神作，总结的太好了！

在生成式AI的时代，OpenAI和Google不仅在语言模型上相互较劲，在图像生成领域也是如此（加红的是非开源的商业模型/产品）。

GANs在人脸合成领域曾是主流方法。2020年DDPM的提出，扩散模型取代了GAN的霸主地位，成为新的SOTA方法。相比GANs，扩散模型训练更加稳定，且生成的图像更具多样性。

实际上DDPM只是扩散模型中最经典且影响力最广泛的一支。依据杨等人（2023年）的综述，扩散模型可以分为三大类：去噪扩散模型（DDPM）、基于分数的生成模型（SGM）以及随机微分方程（Score SDE）。但不管是哪种类型，它们的核心思想都是相同的，即通过逐步添加噪声扰乱图像然后逐步去噪以生成图像。关于更多的背景和公式推导，下面提供了扩展阅读的材料。

回顾上期提到的OpenAI的ADM模型。在这篇工作中，OpenAI通过额外训练一个分类器，引导模型生成特定类别的样本。

而后，Google在此之上提出了无需分类器引导（Classifier-Free Guidance），取消了扩散模型中对独立分类器的需求。取而代之的是，模型同时在条件分布和非条件分布上进行联合训练。这种方法有效简化了框架并提升了扩展性，同时通过加权引导因子保持对生成图像质量和多样性的控制。

这里展示了通过调整权重w时样本质量和多样性之间的平衡，更高的w值可以生成更加类别一致和真实的图像，但会减少多样性。一个非常好的事情是，w值是用户在推理时可以人为控制的，而不需要重新训练（同Classifier Guidance）。这个CFG技术几乎被后续所有的扩散模型采用。

2022年，Google提出了级联扩散模型，通过将多个扩散模型结合到一个流水线中来生成高分辨率图像。CDM先生成低分辨率图像，然后逐步超分生成高分辨率图像，其在ImageNet上的生成质量达到新的SOTA。

扩散蒸馏是Google提出的一种加速扩散模型采样过程的方法，通过将扩散步骤逐步蒸馏到更少步骤。这种方式显著降低了计算成本，同时保证了样本质量。

这张幻灯片展示了扩散蒸馏在256、4和1个采样步骤上的图像质量。仅一个采样步长，就已经很成功地从随机噪声得到有明确形态的图像。

Imagen继承了CDM的思想，并引入了文本编码器能够生成符合用户需求的高分辨图像，并在人类偏好中胜过同期的DALL-E 2。

Prompt-to-Prompt是一种图像编辑技术，无需训练就能进行合成图像的多种类型的编辑。核心是通过对交叉注意力图的操作，交叉注意力连接了提示词的语义信息和图像中的视觉信息。

这张幻灯片展示了提示词中的特定词如何影响图像的特定区域。

Prompt-to-Prompt技术支持多种类型的近文本编辑，包括单词替换、提示词扩充以及词元重新加权。

不同的注意力注入水平可以实现从微小变化到显著变换的编辑范围。

Null-text Inversion引入了一种利用引导扩散模型编辑真实图像的新方法。它不需要训练，仅从一个空文本开始，逐步优化词嵌入，就能实现高质量的重建效果。

Null-text Inversion可以达到和原生的编码器解码器（VQAE）几乎一致的重建效果。同时，Null-text Inversion结合Prompt-to-Prompt能实现高质量的真实图像的编辑效果。

2024年8月，Google推出最新的文生图模型Imagen 3，具有强大的复杂场景和细精细节的理解能力。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/bicheng/66271.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

redis常用数据类型

redis常用数据类型

在Redis中，有几种数据类型是非常常用且核心的，它们各自有着独特的应用场景和优势。 1. 字符串（String）： • 这是Redis中最基本、最常用的数据类型。 • 字符串可以是任何形式的二进制数据，包括文本、图片等…

阅读更多...

【Go研究】Go语言脚本化的可行性——yaegi项目体验

【Go研究】Go语言脚本化的可行性——yaegi项目体验

0x01 背景——云计算中脚本化困境作为云基础设施管理中，大量需要跟文件系统、容器等相关的操作，这些操作实现通常用脚本来实现。现在探讨下，这些脚本为什么一定要用脚本语言来实现，以及目前实现中的常见的问题。常见的两个场…

阅读更多...

基于氢氧燃料电池的分布式三相电力系统Simulink建模与仿真

基于氢氧燃料电池的分布式三相电力系统Simulink建模与仿真

目录 1.课题概述 2.系统仿真结果 3.核心程序与模型 4.系统原理简介 5.完整工程文件 1.课题概述基于氢氧燃料电池的分布式三相电力系统Simulink建模与仿真，仿真输出燃料电池中氢氧元素含量变化以及生成的H2O变化情况。 2.系统仿真结果 3.核心程序与模型版本…

阅读更多...

3218. 切蛋糕的最小总开销 I

3218. 切蛋糕的最小总开销 I

3218. 切蛋糕的最小总开销 I 题目链接：3218. 切蛋糕的最小总开销 I 代码如下： class Solution { public:int minimumCost(int m, int n, vector<int>& horizontalCut, vector<int>& verticalCut){ranges::sort(horizontalCut);ra…

阅读更多...

洛谷 P3205 [HNOI2010] 合唱队

洛谷 P3205 [HNOI2010] 合唱队

思路先设 d p [ i ] [ j ] dp[i][j] dp[i][j] 为区间 [ i , j ] [i, j] [i,j] 的队形方案数。考虑如何转移：对于区间 [ i , j ] [i, j] [i,j] 来说，最后一个入队的要么是 i i i，要么是 j j j。所以分类讨论： 当 j j j …

阅读更多...

UE5.3 虚幻引擎 Windows插件开发打包（带源码插件打包、无源码插件打包）

UE5.3 虚幻引擎 Windows插件开发打包（带源码插件打包、无源码插件打包）

0 引言随着项目体量的增大，所有代码功能都放一起很难管理。所以有什么办法可以将大模块划分成一个个小模块吗。当然有，因为虚幻引擎本身就遇到过这个问题，他的解决办法就是使用插件的形式开发。例如，一个团队开发了文件I/O模块插…

阅读更多...

MySQL 的事务与多版本并发控制(MVCC)的那些事

MySQL 的事务与多版本并发控制(MVCC)的那些事

什么是事务原子性:一致性隔离性问题1: 为什么MySQL要使用mvcc实现隔离性而不使用锁解决并发问题?持久性问题2: MySQL 不是磁盘数据库吗,持久化为什么是 redo log 保证的?问题 3: redo log 储存了什么东西,持久化(崩溃恢复是怎么做的?)问题 4 : MySQL 的 bing log (二进制…

阅读更多...

27.Java 线程间通信（synchronized 实现线程间通信、Lock 实现线程间通信）

27.Java 线程间通信（synchronized 实现线程间通信、Lock 实现线程间通信）

一、线程间通信 1、概述线程间通信的模型有两种：共享内存和消息传递 2、多线程编程步骤（中） 创建资源类，在资源类中创建属性和操作方法在资源类操作方法进行判断、操作、通知创建多个线程，调用资源类中的操作方…

阅读更多...

多模态论文笔记——U-ViT

多模态论文笔记——U-ViT

大家好，这里是好评笔记，公主号：Goodnote，专栏文章私信限时Free。本文详细介绍U-ViT的模型架构和实验细节，虽然没有后续的DiT在AIGC领域火爆，但为后来的研究奠定了基础，但其开创性的探索值得学习…

阅读更多...

SpringBoot的6种API请求参数读取方式

SpringBoot的6种API请求参数读取方式

RequestParam 用来加载URL中?之后的参数比如: 这个请求/user?namedidspace 就可以如下面这样，使用RequestParam 来加载URL 中的name 参数 GetMapping("/user") ResponseBody() public User findUserByName(RequestParam("name") String n…

阅读更多...

node.js内置模块之---http 和 https 模块

node.js内置模块之---http 和 https 模块

http 和 https 模块的作用在 Node.js 中，http 和 https 模块用于创建和处理 HTTP 和 HTTPS 请求/响应 http模块 http 模块提供了用于实现 HTTP 协议的功能。它可以用来创建 HTTP 服务器，处理 HTTP 请求，发送 HTTP 响应，同时也可以…

阅读更多...

Image和Video在同一个Dataloader中交错加载联合训练

Image和Video在同一个Dataloader中交错加载联合训练

单卡实现本文主要从两个方面进行展开： １．将两个或多个dataset组合成pytorch中的一个ConcatDataset．这个dataset将会作为pytorch中Dataloader的输入。 ２．覆盖重写RandomSampler修改batch产生过程&#xff…

阅读更多...

rpm包详解

rpm包详解

一、rpm包 1、过滤系统rpm包，查询已安装的包 rpm -qa | grep htop2、rpm包导出 yumdownnloader htop-2.2.0.33、查看rpm包信息 rpm -qi 包名二、rpm包列表 1、查看软件包列表 yum list available *docker*2、查看软件包依赖 # rpl仓库 yum install epel-rel…

阅读更多...

【Adobe Acrobat PDF】Acrobat failed to connect to a DDE server.是怎么回事？

【Adobe Acrobat PDF】Acrobat failed to connect to a DDE server.是怎么回事？

【Adobe Acrobat PDF】Acrobat failed to connect to a DDE server.是怎么回事？ 【Adobe Acrobat PDF】Acrobat failed to connect to a DDE server.是怎么回事？ 文章目录【Adobe Acrobat PDF】Acrobat failed to connect to a DDE server.是怎么回事&…

阅读更多...

Rabbitmq 业务异常与未手动确认场景及解决方案

Rabbitmq 业务异常与未手动确认场景及解决方案

消费端消费异常，业务异常与未手动确认是不是一个场景，因为执行完业务逻辑，再确认。解决方案就一个，就是重试一定次数，然后加入死信队列。还有就是消费重新放入队列，然后重新投递给其他消费者，…

阅读更多...

每日一题 380. O(1) 时间插入、删除和获取随机元素

每日一题 380. O(1) 时间插入、删除和获取随机元素

380. O(1) 时间插入、删除和获取随机元素最复杂的部分最简单来思考，其他的部分来弥补 class RandomizedSet { public:vector<int> nums;unordered_map<int,int> mp;RandomizedSet() {}bool insert(int val) {if(mp.count(val)){return false;}else{m…

阅读更多...

MongoDB-文章目录

MongoDB-文章目录

MongoDB学习总结1（服务安装） MongoDB学习总结2（常用命令） MongoDB学习总结3（js文件中写命令） MongoDB学习总结4（数据插入、修改） MongoDB学习总结5（数据查询1&#x…

阅读更多...

HBase Cassandra的部署和操作

HBase Cassandra的部署和操作

目录一．数据库的部署与配置二．使用命令访问数据库三．数据库的设计四．编程实现数据库的访问一．数据库的部署与配置 1.在单个节点上对进行数据库的单机部署 （1）下载apache-cassandra-4.1.7-…

阅读更多...

springboot实战纪实-课程介绍

springboot实战纪实-课程介绍

教程介绍 Spring Boot是由Pivotal团队提供的一套开源框架，可以简化spring应用的创建及部署。它提供了丰富的Spring模块化支持，可以帮助开发者更轻松快捷地构建出企业级应用。 Spring Boot通过自动配置功能，降低了复杂性，同时支持…

阅读更多...

BBP飞控板中的坐标系变换

BBP飞控板中的坐标系变换

一般飞控板中至少存在以下坐标系： 陀螺Gyro坐标系加速度计Acc坐标系磁强计Mag坐标系飞控板坐标系在BBP飞控板采用的IMU为同时包含了陀螺（Gyro）及加速度计（Acc）的6轴传感器，故Gyro及Acc为同一坐标系。同时…

阅读更多...

最新文章