扩散模型论文概述(二):Google系列工作【学习笔记】

视频链接:扩散模型论文概述(二):Google系列工作_哔哩哔哩_bilibili

本视频讲的是Google在图像生成的工作。

同样,第一张图片是神作,总结的太好了!

在生成式AI的时代,OpenAI和Google不仅在语言模型上相互较劲,在图像生成领域也是如此(加红的是非开源的商业模型/产品)。

GANs在人脸合成领域曾是主流方法。2020年DDPM的提出,扩散模型取代了GAN的霸主地位,成为新的SOTA方法。相比GANs,扩散模型训练更加稳定,且生成的图像更具多样性。

实际上DDPM只是扩散模型中最经典且影响力最广泛的一支。依据杨等人(2023年)的综述,扩散模型可以分为三大类:去噪扩散模型(DDPM)、基于分数的生成模型(SGM)以及随机微分方程(Score SDE)。但不管是哪种类型,它们的核心思想都是相同的,即通过逐步添加噪声扰乱图像然后逐步去噪以生成图像。关于更多的背景和公式推导,下面提供了扩展阅读的材料。

 回顾上期提到的OpenAI的ADM模型。在这篇工作中,OpenAI通过额外训练一个分类器,引导模型生成特定类别的样本。

 

而后,Google在此之上提出了无需分类器引导(Classifier-Free Guidance),取消了扩散模型中对独立分类器的需求。取而代之的是,模型同时在条件分布和非条件分布上进行联合训练。这种方法有效简化了框架并提升了扩展性,同时通过加权引导因子保持对生成图像质量和多样性的控制。

 

这里展示了通过调整权重w时样本质量和多样性之间的平衡,更高的w值可以生成更加类别一致和真实的图像,但会减少多样性。一个非常好的事情是,w值是用户在推理时可以人为控制的,而不需要重新训练(同Classifier Guidance)。这个CFG技术几乎被后续所有的扩散模型采用。

 

2022年,Google提出了级联扩散模型,通过将多个扩散模型结合到一个流水线中来生成高分辨率图像。CDM先生成低分辨率图像,然后逐步超分生成高分辨率图像,其在ImageNet上的生成质量达到新的SOTA。

 

扩散蒸馏是Google提出的一种加速扩散模型采样过程的方法,通过将扩散步骤逐步蒸馏到更少步骤。这种方式显著降低了计算成本,同时保证了样本质量。

这张幻灯片展示了扩散蒸馏在256、4和1个采样步骤上的图像质量。仅一个采样步长,就已经很成功地从随机噪声得到有明确形态的图像。

 

Imagen继承了CDM的思想,并引入了文本编码器能够生成符合用户需求的高分辨图像,并在人类偏好中胜过同期的DALL-E 2。

 

Prompt-to-Prompt是一种图像编辑技术,无需训练就能进行合成图像的多种类型的编辑。核心是通过对交叉注意力图的操作,交叉注意力连接了提示词的语义信息和图像中的视觉信息。

 

这张幻灯片展示了提示词中的特定词如何影响图像的特定区域。

Prompt-to-Prompt技术支持多种类型的近文本编辑,包括单词替换、提示词扩充以及词元重新加权。

不同的注意力注入水平可以实现从微小变化到显著变换的编辑范围。

Null-text Inversion引入了一种利用引导扩散模型编辑真实图像的新方法。它不需要训练,仅从一个空文本开始,逐步优化词嵌入,就能实现高质量的重建效果。

Null-text Inversion可以达到和原生的编码器解码器(VQAE)几乎一致的重建效果。同时,Null-text Inversion结合Prompt-to-Prompt能实现高质量的真实图像的编辑效果。

2024年8月,Google推出最新的文生图模型Imagen 3,具有强大的复杂场景和细精细节的理解能力。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/66271.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

redis常用数据类型

在Redis中,有几种数据类型是非常常用且核心的,它们各自有着独特的应用场景和优势。 1. 字符串(String): • 这是Redis中最基本、最常用的数据类型。 • 字符串可以是任何形式的二进制数据,包括文本、图片等…

基于氢氧燃料电池的分布式三相电力系统Simulink建模与仿真

目录 1.课题概述 2.系统仿真结果 3.核心程序与模型 4.系统原理简介 5.完整工程文件 1.课题概述 基于氢氧燃料电池的分布式三相电力系统Simulink建模与仿真,仿真输出燃料电池中氢氧元素含量变化以及生成的H2O变化情况。 2.系统仿真结果 3.核心程序与模型 版本…

UE5.3 虚幻引擎 Windows插件开发打包(带源码插件打包、无源码插件打包)

0 引言 随着项目体量的增大,所有代码功能都放一起很难管理。所以有什么办法可以将大模块划分成一个个小模块吗。当然有,因为虚幻引擎本身就遇到过这个问题,他的解决办法就是使用插件的形式开发。 例如,一个团队开发了文件I/O模块插…

MySQL 的事务与多版本并发控制(MVCC)的那些事

什么是事务原子性:一致性隔离性 问题1: 为什么MySQL要使用mvcc实现隔离性而不使用 锁 解决并发问题?持久性 问题2: MySQL 不是磁盘数据库吗,持久化为什么是 redo log 保证的?问题 3: redo log 储存了什么东西,持久化(崩溃恢复是怎么做的?)问题 4 : MySQL 的 bing log (二进制…

多模态论文笔记——U-ViT

大家好,这里是好评笔记,公主号:Goodnote,专栏文章私信限时Free。本文详细介绍U-ViT的模型架构和实验细节,虽然没有后续的DiT在AIGC领域火爆,但为后来的研究奠定了基础,但其开创性的探索值得学习…

springboot实战纪实-课程介绍

教程介绍 Spring Boot是由Pivotal团队提供的一套开源框架,可以简化spring应用的创建及部署。它提供了丰富的Spring模块化支持,可以帮助开发者更轻松快捷地构建出企业级应用。 Spring Boot通过自动配置功能,降低了复杂性,同时支持…

BBP飞控板中的坐标系变换

一般飞控板中至少存在以下坐标系: 陀螺Gyro坐标系加速度计Acc坐标系磁强计Mag坐标系飞控板坐标系 在BBP飞控板采用的IMU为同时包含了陀螺(Gyro)及加速度计(Acc)的6轴传感器,故Gyro及Acc为同一坐标系。同时…

数据表中的索引详解

文章目录 一、索引概述二、普通索引三、唯一索引四、全文索引五、多列索引六、索引的设计原则七、隐藏和删除索引 一、索引概述 日常生活中,我们经常会在电话号码簿中查阅“某人”的电话号码,按姓查询或者按字母排序查询;在字典中查阅“某个…

大模型系列17-RAGFlow搭建本地知识库

大模型系列17-RAGFlow搭建本地知识库 安装ollama安装open-wehui安装并运行ragflowRAG(检索、增强、生成)RAG是什么RAG三过程RAG问答系统构建步骤向量库构建检索模块生成模块 RAG解决LLM的痛点 使用ragflow访问ragflow配置ollama模型添加Embedding模型添加…

R shiny app | 网页应用 空格分隔的文本文件在线转csv

shiny 能快速把R程序以web app的形式提供出来,方便使用,降低技术使用门槛。 本文提供的示例:把空格分隔的txt文件转为逗号分隔的csv文件。 前置依赖:需要有R环境(v4.2.0),安装shiny包(v1.9.1)。括号内是我使用的版本…

SocraticLM: Exploring Socratic Personalized Teaching with Large Language Models

题目 苏格拉底式教学:用大型语言模型探索苏格拉底式个性化教学 论文地址:https://openreview.net/pdf?idqkoZgJhxsA 项目地址:https://github.com/Ljyustc/SocraticLM 摘要 大型语言模型(LLM)被认为是推进智能教育的一项关键技术,因为它们展…

第一节:电路连接【51单片机+A4988+步进电机教程】

摘要:本节介绍如何搭建一个51单片机A4988步进电机控制电路,所用材料均为常见的模块,简单高效的方式搭建起硬件环境 一、硬件清单 ①51单片机最小控制模块 ②开关电源 ③A4988模块转接座 ④二相四线步进电机 ⑤电线若干 二、接线 三、A49…

Outlook2024版如何回到经典Outlook

Outlook2024版如何回到经典Outlook 如果新加入一家公司,拿到的电脑,大概率是最新版的Windows, 一切都是新的。 如果不coding, 使用国产的foxmail大概就可以解决一切问题了。可惜老程序员很多Coding都是基于传统Outlook的,科技公司所有人都是I…

网关如何识别和阻止网络攻击

网关在识别和阻止网络攻击方面扮演着关键角色,它通过多种技术和机制来确保网络的安全。以下是网关如何识别和阻止网络攻击的一些主要方法: 1.深度包检测(DPI) 网关可以对经过的数据包进行深度分析,检查数据包的头部、负…

操作系统复习(理论版)

目录 只会在选择填空出现类型 第一章:操作系统导论 操作系统介绍 不得不知道的概念 可能出现在答题的类型 第二章:进程调度 进程管理: 处理机调度: 进程同步: 死锁: 预防死锁: 避免死…

概述(讲讲python基本语法和第三方库)

我是北子,这是我自己写的python教程,主要是记录自己的学习成果方便自己日后复习, 我先学了C/C,所以这套教程中可能会将很多概念和C/C去对比,所以该教程大概不适合零基础的人。 it seems that python nowadays 只在人工…

Linux(Centos 7.6)命令详解:ls

1.命令作用 列出目录内容(list directory contents) 2.命令语法 Usage: ls [OPTION]... [FILE]... 3.参数详解 OPTION: -l,long list 使用长列表格式-a,all 不忽略.开头的条目(打印所有条目,包括.开头的隐藏条目&#xff09…

改善 Kibana 中的 ES|QL 编辑器体验

作者:来自 Elastic Marco Liberati 随着新的 ES|QL 语言正式发布,Kibana 中开发了一种新的编辑器体验,以帮助用户编写更快、更好的查询。实时验证、改进的自动完成和快速修复等功能将简化 ES|QL 体验。 我们将介绍改进 Kibana 中 ES|QL 编辑器…

基于Spring Boot的紧急物资管理系统

基于Spring Boot的紧急物资管理系统是一个非常实用的应用,特别是在应对自然灾害、公共卫生事件等情况下。该系统可以帮助管理者有效地追踪和分配物资,确保资源能够及时到达需要的地方。以下是一个基本的实现思路和一些关键组件: 项目规划 需…

机器学习基础-概率图模型

(一阶)马尔科夫模型的基本概念 状态、状态转换概率、初始概率 状态转移矩阵的基本概念 隐马尔可夫模型(HMM)的基本概念 条件随机场(CRF)的基本概念 实际应用中的马尔科夫性 自然语言处理: 在词…