Sora背后的技术《可控生成与文本到图像扩散模型》

在迅速发展的视觉生成领域中,扩散模型革命性地改变了景观,以其令人印象深刻的文本引导生成功能标志着能力的重大转变。然而,仅依赖文本来条件化这些模型并不能完全满足不同应用和场景的多样化和复杂需求。认识到这一不足,多项研究旨在控制预训练的文本到图像(T2I)模型以支持新颖的条件。在这个综述中,我们对可控生成与T2I扩散模型的文献进行了全面调研,涵盖了这一领域的理论基础和实践进展我们的综述从去噪扩散概率模型(DDPMs)和广泛使用的T2I扩散模型的基础知识简介开始。然后,我们揭示了扩散模型的控制机制,从理论上分析了如何在去噪过程中引入新颖条件进行条件生成。此外,我们提供了这一领域研究的详细概述,从条件视角将其组织成不同的类别:具有特定条件的生成、具有多重条件的生成和通用可控生成。对于所调研的可控生成文献的详尽列表,请参考我们在https://github.com/PRIV-Creation/Awesome-Controllable-T2I-Diffusion-Models上的整理仓库。

https://www.zhuanzhi.ai/paper/9f4a05bc7007432b269db0583ad4babe

扩散模型,作为视觉生成领域的一个范式转变,已经大幅超越了像生成对抗网络(GANs)这样的传统框架【1】-【8】。作为参数化的马尔科夫链,扩散模型展现出了将随机噪声转化为复杂图像的卓越能力,逐步从噪声过渡到高保真的视觉表征。随着技术的进步,扩散模型在图像生成及相关下游任务中展示了巨大的潜力。

随着这些模型生成的图像质量的提升,一个关键挑战变得越来越明显:实现对这些生成模型的精确控制,以满足复杂多样的人类需求。这个任务超越了简单提高图像分辨率或现实感;它涉及到细致地使生成的输出与用户的特定和细腻的需求以及他们的创造性愿景相匹配。得益于大量多模态文本-图像数据集【9】-【17】的出现和引导机制的发展【18】-【21】,文本到图像(T2I)扩散模型已经成为可控视觉生成领域的一个基石【21】-【26】。这些模型能够生成真实、高质量的图像,准确反映自然语言中提供的描述。

虽然基于文本的条件在推动可控生成领域向前发展方面起到了重要作用,但它们本质上缺乏完全满足所有用户需求的能力。这一限制在一些场景中尤为明显,比如通过文本提示单独无法有效传达的条件,如未见过的人物或独特的艺术风格的描述。这些场景在T2I生成过程中提出了重大挑战,因为这种视觉表征的细微之处和复杂性难以用文本形式封装。认识到这一差距,大量的研究开始转向整合超越文本描述界限的新颖条件到T2I扩散模型中。这一转变进一步得到了强大且开源的T2I扩散模型的出现的促进,如图1a所示。这些进步导致了对多样条件的探索,从而丰富了条件生成的可能性范围,并解决了用户在各种应用中更为复杂和细腻的需求。

尽管有许多调查文章探讨了由AI生成的内容(AIGC)领域,包括扩散模型理论和架构【28】、高效扩散模型【29】、多模态图像合成与编辑【30】、视觉扩散模型【31】-【34】,以及文本到3D应用【35】,但它们通常只简要介绍了控制文本到图像扩散模型或主要关注于其他模态。这种缺乏对T2I模型中新颖条件整合和影响的深入分析凸显了未来研究和探索的一个关键领域。本综述提供了使用文本到图像扩散模型的可控生成的全面回顾,涵盖了理论基础和实际应用。起初,我们提供了T2I扩散模型背景的简要概述,并深入探讨了这些方法的理论基础,阐明了如何将新颖条件整合到T2I扩散模型中。这一探索阐明了先前研究的基本原理,有助于更深入地理解该领域。随后,我们提供了对先前研究的全面概述,强调它们的独特贡献和区别特征。此外,我们探索了这些方法的多样化应用,展示了它们在不同背景和相关任务中的实际效用和影响。

总结来说,我们的贡献包括

  • 我们从条件角度引入了一个结构良好的可控生成方法的分类法,揭示了这一研究领域固有的挑战和复杂性。

  • 我们对引入新颖条件到T2I扩散模型中的两个核心理论机制进行了深入分析:条件评分预测和条件引导评分估计,提供了对这些机制如何在细粒度级别上运作的细致理解。

  • 我们的回顾是全面的,根据我们提出的分类覆盖了广泛的条件生成研究。我们细致地强调了每种方法的显著特征和独特特点。

  • 我们展示了使用T2I扩散模型的条件生成在各种生成任务中的多样化应用,证明了它作为AIGC时代一个基本和有影响力的方面的出现。

本文的其余部分如下组织。第2节提供了去噪扩散概率模型(DDPMs)的简要介绍,展示了广泛使用的文本到图像扩散模型,并呈现了一个结构良好的分类法。在第3节,我们分析了控制机制并揭示了如何在文本到图像扩散模型中引入新颖条件。第4节总结了根据我们提出的分类控制文本到图像扩散模型的现有方法。最后,第7节展示了可控文本到图像生成的应用。

分类法

利用文本到扩散模型进行条件生成的任务代表了一个多方面且复杂的领域。从条件视角来看,我们将这个任务划分为三个子任务(参见图2)。大多数工作研究如何在特定条件下生成图像,例如图像引导的生成和草图到图像的生成。为了揭示这些方法的机械理论和特点,我们根据它们的条件类型进一步对它们进行分类。这项任务的主要挑战在于如何使预训练的文本到图像(T2I)扩散模型学会模拟新类型的条件,并与文本条件一起生成,同时确保产生的图像质量高。此外,一些方法探索如何使用多个条件生成图像,例如给定角色的身份和姿态。这些任务的主要挑战在于多个条件的整合,需要能力同时在生成结果中表达几个条件。此外,一些工作尝试开发一种条件不可知的生成方法,可以利用这些条件产生结果。

可控文本到图像生成与特定条件

在文本到图像扩散模型的基础上,引入新颖条件来指导生成过程代表了一个复杂和多方面的任务。在接下来的章节中,我们将根据条件视角回顾现有的条件生成方法,对它们的方法论提供全面的评述。

在多条件生成的任务中,目标是在多个条件下生成图像,例如在用户定义的姿态下生成特定人物,或生成具有三种个性化身份的人物。在本节中,我们从技术角度对这些方法进行全面概述,将它们分类为联合训练(第5.1节)、权重融合(第5.3节)、基于注意力的整合(第5.4节)、引导融合(第5.5节)和持续学习(第5.2节)。注意,一些其他的可控生成方法也展示了多条件合成的能力,而无需专门的设计【41】、【42】、【215】。

通用可控文本到图像生成

除了针对特定类型条件的方法外,还存在旨在适应图像生成中任意条件的通用方法。这些方法根据它们的理论基础被广泛分类为两组:通用条件评分预测框架和通用条件引导评分估计。

应用

在本节中,我们关注那些在生成过程中利用新颖条件来解决特定任务的创新方法。通过强调这些开创性的方法,我们旨在突出条件生成不仅在改变内容创作的格局,还在各个领域扩大创造力和功能性的视野。后续的讨论将提供这些模型的变革性影响及其在多样化应用中的潜力的见解。

结论

在这篇全面的综述中,我们深入探讨了使用文本到图像扩散模型的条件生成领域,揭示了在文本引导生成过程中融入的新颖条件。起初,我们为读者提供了基础知识,介绍了去噪扩散概率模型、著名的文本到图像扩散模型以及一个结构良好的分类法。随后,我们揭示了将新颖条件引入T2I扩散模型的机制。然后,我们总结了以前的条件生成方法,并从理论基础、技术进步和解决策略的角度对它们进行了分析。此外,我们探索了可控生成的实际应用,强调了其在AI生成内容时代的重要作用和巨大潜力。这篇综述旨在提供对当前可控T2I生成格局的全面理解,从而为这一动态研究领域的持续发展和扩展做出贡献。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/738687.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

MSQL中DATETIME或TIMESTAMP的区别

MSQL中DATETIME或TIMESTAMP的区别 今天来聊聊 MSQL中DATETIME或TIMESTAMP以及具体细节。 两者对比 MySQL中的 DATETIME 和 TIMESTAMP 类型都用于存储日期和时间信息,但它们之间存在一些关键的区别: 范围: DATETIME 类型的值范围从1000-01-01 00:00:0…

开源推荐榜【ScottPlot 一个免费的开源 .NET 绘图库,百万数据点毫秒级绘制效率】

ScottPlot 是一个用于 C# 的开源绘图库,旨在提供简单易用的绘图功能,特别适用于科学和工程应用。它基于 .NET 平台,可以在 Windows、Linux 和 macOS 等操作系统上使用。 ScottPlot 具有以下主要特点: 简单易用:ScottPl…

17.8.1 InnoDB 启动配置

关于 InnoDB 配置的第一个决定涉及数据文件、日志文件、页面大小和内存缓冲区的配置,这些应该在初始化 InnoDB 之前配置。在初始化 InnoDB 之后修改配置可能需要一些复杂的步骤。 本节提供有关在配置文件中指定 InnoDB 设置、查看 InnoDB 初始化信息和重要存储注意…

数据结构 之 链表LinkedList

目录 1. ArrayList的缺陷: 2. 链表: 2.1 链表的概念及结构: 3. 链表的使用和模拟实现: 3.1 构造方法: 3.2 模拟实现: 4. 源码分享: 在我学习顺序表之后,我就立马开始了链表的学…

JavaScript:ES至今发展史简说

ECMAScript(简称ES)是JavaScript的标准,它的发展史经历了多个版本的迭代,以下是主要里程碑: ES1 (1997年6月):首个正式发布的ECMAScript标准,基于当时的JavaScript(由Netscape公司开…

鸿蒙开发:从入门到精通的全方位学习指南

随着华为鸿蒙HarmonyOS生态系统的迅速扩展,越来越多的开发者渴望深入了解并掌握这一前沿技术。本文旨在为鸿蒙开发新手提供一份详尽且实用的学习教程,助您从零开始,逐步迈向鸿蒙开发的巅峰。 一、鸿蒙开发环境搭建 DevEco Studio安装&#x…

非接触型红外线(IR)温度传感器 为AI NB打造更舒适工作环境

生成式AI掀起全球热潮,各大计算机厂纷纷推出AI NB/PC新品,不过AI新机也同时面临的电源相关热处理的难题,众智光电科技于今日(19号)提出最佳创新解决方案,以非接触型红外线(IR)温度感测芯片突破NB应用,能让使用者有全新体验,打造更舒适的工作环境。 在现今科技迅速发展的时代,高…

Linux报错排查-安装PHP的remi库报错

Linux运维工具-ywtool 目录 一.BC-Linux系统1.1 报错提示1.2 解决 二.CentOS/CentOS Steam系统2.1 报错提示2.2 解决 一.BC-Linux系统 测试系统用的是:BigCloud Enterprise Linux release 8.2 1.1 报错提示 [rootecs-11973640 ~/php]# yum install -y /usr/local/ywtools/r…

力扣--深度优先算法/回溯算法90.子集Ⅱ

思路分析&#xff1a; 成员变量&#xff1a; result: 用于存储最终的子集结果。path: 用于存储当前正在构建的子集。 DFS函数&#xff1a; dfs(vector<int>& nums, int start): 递归地生成子集。 从给定的start索引开始遍历数组。如果当前元素与前一个元素相同&#…

spring boot 使用 webservice

spring boot 使用 webservice 使用 java 自带的 jax-ws 依赖 如果是jdk1.8,不需要引入任何依赖&#xff0c;如果大于1.8 <dependency><groupId>javax.jws</groupId><artifactId>javax.jws-api</artifactId><version>1.1</version&g…

前端的数据标记协议

文章目录 数据标记协议是什么数据标记协议的作用常见的数据标记协议Open Graph protocol 开放图谱协议基本元数据协议可选元数据结构化属性 —— 元数据的属性多个相同的元数据标签类型元数据的使用方法全局类型使用自定义类型使用对象类型使用歌曲对象类型视频对象类型文章对象…

实现复制导入excel数据与前端导出excel

import {utils, write } from xlsx import Papa from papaparse// 获取合并头部的数据 level: 头部分有几行 function mergeHeader(worksheet, cellList, level = 3) {// 并获取 列名const colName = []for (const key of Object.keys(worksheet)) {// 根据第一行的数据if (key…

webgl instance 绘制

webgl instance 绘制 效果: key1: 创建实例缓存 function createMesh() {for (let i 0; i < NUM_CUBE; i) {const angle i * 2 * Math.PI / NUM_CUBE;const x Math.sin(angle) * RADIUS;const y 0;const z Math.cos(angle) * RADIUS;cubes[i] {scale: new THREE.V…

Rust 使 Python 函数速度提高 5000%

大家应该都听说过&#xff0c;Rust 因其卓越的性能和安全性&#xff0c;正被越来越多的科技巨头采用&#xff0c;推荐开发者使用Rust来构建关键软件。 今天&#xff0c;来深入学习一下&#xff0c;如何利用 Rust 来大幅提升你的 Python代码性能&#xff01; 寻找第N个质数&…

Node.js作用

Node.js可以开发应用 开发服务器应用 开发工具类应用 开发桌面端应用

mysql 在ubantu系统安装、命令大全以及指令没反应问题

安装 docker search mysqldocker pull mysqldocker run -itd --name mysql-test -p 3306:3306 -e MYSQL_ROOT_PASSWORD123456 mysqldocker exec -it mysql-test bashmysql --versionmysql Ver 8.0.27 for Linux on x86_64 (MySQL Community Server - GPL)mysql -u root -p mys…

Linux查看磁盘命令df-h详解

df -h 是一个常用的 Linux 命令&#xff0c;用于查看文件系统的磁盘使用情况并以易于阅读的方式显示。以下是 df -h 命令的详细解释&#xff1a; -h&#xff1a;以人类可读的格式显示磁盘空间大小。例如&#xff0c;使用 GB、MB、KB 等单位代替字节。 执行 df -h 命令后&…

【webrtc】m122:PacingController 源码阅读

PacingController 关系与BitrateProber 关系更为密切PacingController 内置BitrateProber G:\CDN\signalapp_webrtc\modules\pacing\pacing_controller.hPacingControllerBitrateProber prober_;PacingController 关系与BitrateProber 关系更为密切,在整个系统中的地位也更重要…

阿里云2核4G服务器ECS规格清单、CPU性能详解和租用价格表

阿里云2核4G服务器多少钱一年&#xff1f;2核4G服务器1个月费用多少&#xff1f;2核4G服务器30元3个月、85元一年&#xff0c;轻量应用服务器2核4G4M带宽165元一年&#xff0c;企业用户2核4G5M带宽199元一年。本文阿里云服务器网整理的2核4G参加活动的主机是ECS经济型e实例和u1…

QT UI设计

在QT中添加VTK 在main函数中初始化 //VTK的初始化语句 #ifndef INITIAL_OPENGL #define INITIAL_OPENGL #include <vtkAutoInit.h> VTK_MODULE_INIT(vtkRenderingOpenGL); VTK_MODULE_INIT(vtkInteractionStyle); VTK_MODULE_INIT(vtkRenderingVolumeOpenGL); VTK_MODU…