扩散模型论文概述(二):Google系列工作【学习笔记】

视频链接:扩散模型论文概述(二):Google系列工作_哔哩哔哩_bilibili

本视频讲的是Google在图像生成的工作。

同样,第一张图片是神作,总结的太好了!

在生成式AI的时代,OpenAI和Google不仅在语言模型上相互较劲,在图像生成领域也是如此(加红的是非开源的商业模型/产品)。

GANs在人脸合成领域曾是主流方法。2020年DDPM的提出,扩散模型取代了GAN的霸主地位,成为新的SOTA方法。相比GANs,扩散模型训练更加稳定,且生成的图像更具多样性。

实际上DDPM只是扩散模型中最经典且影响力最广泛的一支。依据杨等人(2023年)的综述,扩散模型可以分为三大类:去噪扩散模型(DDPM)、基于分数的生成模型(SGM)以及随机微分方程(Score SDE)。但不管是哪种类型,它们的核心思想都是相同的,即通过逐步添加噪声扰乱图像然后逐步去噪以生成图像。关于更多的背景和公式推导,下面提供了扩展阅读的材料。

 回顾上期提到的OpenAI的ADM模型。在这篇工作中,OpenAI通过额外训练一个分类器,引导模型生成特定类别的样本。

 

而后,Google在此之上提出了无需分类器引导(Classifier-Free Guidance),取消了扩散模型中对独立分类器的需求。取而代之的是,模型同时在条件分布和非条件分布上进行联合训练。这种方法有效简化了框架并提升了扩展性,同时通过加权引导因子保持对生成图像质量和多样性的控制。

 

这里展示了通过调整权重w时样本质量和多样性之间的平衡,更高的w值可以生成更加类别一致和真实的图像,但会减少多样性。一个非常好的事情是,w值是用户在推理时可以人为控制的,而不需要重新训练(同Classifier Guidance)。这个CFG技术几乎被后续所有的扩散模型采用。

 

2022年,Google提出了级联扩散模型,通过将多个扩散模型结合到一个流水线中来生成高分辨率图像。CDM先生成低分辨率图像,然后逐步超分生成高分辨率图像,其在ImageNet上的生成质量达到新的SOTA。

 

扩散蒸馏是Google提出的一种加速扩散模型采样过程的方法,通过将扩散步骤逐步蒸馏到更少步骤。这种方式显著降低了计算成本,同时保证了样本质量。

这张幻灯片展示了扩散蒸馏在256、4和1个采样步骤上的图像质量。仅一个采样步长,就已经很成功地从随机噪声得到有明确形态的图像。

 

Imagen继承了CDM的思想,并引入了文本编码器能够生成符合用户需求的高分辨图像,并在人类偏好中胜过同期的DALL-E 2。

 

Prompt-to-Prompt是一种图像编辑技术,无需训练就能进行合成图像的多种类型的编辑。核心是通过对交叉注意力图的操作,交叉注意力连接了提示词的语义信息和图像中的视觉信息。

 

这张幻灯片展示了提示词中的特定词如何影响图像的特定区域。

Prompt-to-Prompt技术支持多种类型的近文本编辑,包括单词替换、提示词扩充以及词元重新加权。

不同的注意力注入水平可以实现从微小变化到显著变换的编辑范围。

Null-text Inversion引入了一种利用引导扩散模型编辑真实图像的新方法。它不需要训练,仅从一个空文本开始,逐步优化词嵌入,就能实现高质量的重建效果。

Null-text Inversion可以达到和原生的编码器解码器(VQAE)几乎一致的重建效果。同时,Null-text Inversion结合Prompt-to-Prompt能实现高质量的真实图像的编辑效果。

2024年8月,Google推出最新的文生图模型Imagen 3,具有强大的复杂场景和细精细节的理解能力。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/66271.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

redis常用数据类型

在Redis中,有几种数据类型是非常常用且核心的,它们各自有着独特的应用场景和优势。 1. 字符串(String): • 这是Redis中最基本、最常用的数据类型。 • 字符串可以是任何形式的二进制数据,包括文本、图片等…

【Go研究】Go语言脚本化的可行性——yaegi项目体验

0x01 背景——云计算中脚本化困境 作为云基础设施管理中,大量需要跟文件系统、容器等相关的操作,这些操作实现通常用脚本来实现。 现在探讨下,这些脚本为什么一定要用脚本语言来实现,以及目前实现中的常见的问题。 常见的两个场…

基于氢氧燃料电池的分布式三相电力系统Simulink建模与仿真

目录 1.课题概述 2.系统仿真结果 3.核心程序与模型 4.系统原理简介 5.完整工程文件 1.课题概述 基于氢氧燃料电池的分布式三相电力系统Simulink建模与仿真,仿真输出燃料电池中氢氧元素含量变化以及生成的H2O变化情况。 2.系统仿真结果 3.核心程序与模型 版本…

3218. 切蛋糕的最小总开销 I

3218. 切蛋糕的最小总开销 I 题目链接&#xff1a;3218. 切蛋糕的最小总开销 I 代码如下&#xff1a; class Solution { public:int minimumCost(int m, int n, vector<int>& horizontalCut, vector<int>& verticalCut){ranges::sort(horizontalCut);ra…

洛谷 P3205 [HNOI2010] 合唱队

思路 先设 d p [ i ] [ j ] dp[i][j] dp[i][j] 为区间 [ i , j ] [i, j] [i,j] 的队形方案数。 考虑如何转移&#xff1a;对于区间 [ i , j ] [i, j] [i,j] 来说&#xff0c;最后一个入队的要么是 i i i&#xff0c;要么是 j j j。 所以分类讨论&#xff1a; 当 j j j …

UE5.3 虚幻引擎 Windows插件开发打包(带源码插件打包、无源码插件打包)

0 引言 随着项目体量的增大&#xff0c;所有代码功能都放一起很难管理。所以有什么办法可以将大模块划分成一个个小模块吗。当然有&#xff0c;因为虚幻引擎本身就遇到过这个问题&#xff0c;他的解决办法就是使用插件的形式开发。 例如&#xff0c;一个团队开发了文件I/O模块插…

MySQL 的事务与多版本并发控制(MVCC)的那些事

什么是事务原子性:一致性隔离性 问题1: 为什么MySQL要使用mvcc实现隔离性而不使用 锁 解决并发问题?持久性 问题2: MySQL 不是磁盘数据库吗,持久化为什么是 redo log 保证的?问题 3: redo log 储存了什么东西,持久化(崩溃恢复是怎么做的?)问题 4 : MySQL 的 bing log (二进制…

27.Java 线程间通信(synchronized 实现线程间通信、Lock 实现线程间通信)

一、线程间通信 1、概述 线程间通信的模型有两种&#xff1a;共享内存和消息传递 2、多线程编程步骤&#xff08;中&#xff09; 创建资源类&#xff0c;在资源类中创建属性和操作方法 在资源类操作方法进行判断、操作、通知 创建多个线程&#xff0c;调用资源类中的操作方…

多模态论文笔记——U-ViT

大家好&#xff0c;这里是好评笔记&#xff0c;公主号&#xff1a;Goodnote&#xff0c;专栏文章私信限时Free。本文详细介绍U-ViT的模型架构和实验细节&#xff0c;虽然没有后续的DiT在AIGC领域火爆&#xff0c;但为后来的研究奠定了基础&#xff0c;但其开创性的探索值得学习…

SpringBoot的6种API请求参数读取方式

RequestParam 用来加载URL中?之后的参数 比如: 这个请求/user?namedidspace 就可以如下面这样&#xff0c;使用RequestParam 来加载URL 中的name 参数 GetMapping("/user") ResponseBody() public User findUserByName(RequestParam("name") String n…

node.js内置模块之---http 和 https 模块

http 和 https 模块的作用 在 Node.js 中&#xff0c;http 和 https 模块用于创建和处理 HTTP 和 HTTPS 请求/响应 http模块 http 模块提供了用于实现 HTTP 协议的功能。它可以用来创建 HTTP 服务器&#xff0c;处理 HTTP 请求&#xff0c;发送 HTTP 响应&#xff0c;同时也可以…

Image和Video在同一个Dataloader中交错加载联合训练

单卡实现 本文主要从两个方面进行展开&#xff1a; &#xff11;&#xff0e;将两个或多个dataset组合成pytorch中的一个ConcatDataset&#xff0e;这个dataset将会作为pytorch中Dataloader的输入。 &#xff12;&#xff0e;覆盖重写RandomSampler修改batch产生过程&#xff…

rpm包详解

一、rpm包 1、过滤系统rpm包&#xff0c;查询已安装的包 rpm -qa | grep htop2、rpm包导出 yumdownnloader htop-2.2.0.33、查看rpm包信息 rpm -qi 包名二、rpm包列表 1、查看软件包列表 yum list available *docker*2、查看软件包依赖 # rpl仓库 yum install epel-rel…

【Adobe Acrobat PDF】Acrobat failed to connect to a DDE server.是怎么回事?

【Adobe Acrobat PDF】Acrobat failed to connect to a DDE server.是怎么回事&#xff1f; 【Adobe Acrobat PDF】Acrobat failed to connect to a DDE server.是怎么回事&#xff1f; 文章目录 【Adobe Acrobat PDF】Acrobat failed to connect to a DDE server.是怎么回事&…

Rabbitmq 业务异常与未手动确认场景及解决方案

消费端消费异常&#xff0c;业务异常 与 未手动确认是不是一个场景&#xff0c;因为执行完业务逻辑&#xff0c;再确认。解决方案就一个&#xff0c;就是重试一定次数&#xff0c;然后加入死信队列。还有就是消费重新放入队列&#xff0c;然后重新投递给其他消费者&#xff0c;…

每日一题 380. O(1) 时间插入、删除和获取随机元素

380. O(1) 时间插入、删除和获取随机元素 最复杂的部分最简单来思考&#xff0c;其他的部分来弥补 class RandomizedSet { public:vector<int> nums;unordered_map<int,int> mp;RandomizedSet() {}bool insert(int val) {if(mp.count(val)){return false;}else{m…

MongoDB-文章目录

MongoDB学习总结1&#xff08;服务安装&#xff09; MongoDB学习总结2&#xff08;常用命令&#xff09; MongoDB学习总结3&#xff08;js文件中写命令&#xff09; MongoDB学习总结4&#xff08;数据插入、修改&#xff09; MongoDB学习总结5&#xff08;数据查询1&#x…

HBase Cassandra的部署和操作

目录 一&#xff0e;数据库的部署与配置 二&#xff0e;使用命令访问数据库 三&#xff0e;数据库的设计 四&#xff0e;编程实现数据库的访问 一&#xff0e;数据库的部署与配置 1.在单个节点上对进行数据库的单机部署 &#xff08;1&#xff09;下载apache-cassandra-4.1.7-…

springboot实战纪实-课程介绍

教程介绍 Spring Boot是由Pivotal团队提供的一套开源框架&#xff0c;可以简化spring应用的创建及部署。它提供了丰富的Spring模块化支持&#xff0c;可以帮助开发者更轻松快捷地构建出企业级应用。 Spring Boot通过自动配置功能&#xff0c;降低了复杂性&#xff0c;同时支持…

BBP飞控板中的坐标系变换

一般飞控板中至少存在以下坐标系&#xff1a; 陀螺Gyro坐标系加速度计Acc坐标系磁强计Mag坐标系飞控板坐标系 在BBP飞控板采用的IMU为同时包含了陀螺&#xff08;Gyro&#xff09;及加速度计&#xff08;Acc&#xff09;的6轴传感器&#xff0c;故Gyro及Acc为同一坐标系。同时…