谷歌新作:扩散模型背后的数学原理

59eb9650493a3eb9a9e649c839f56f09.jpeg

来源:机器之心

扩散模型背后的数学可是难倒了一批人。

最近一段时间,AI 作画可谓是火的一塌糊涂。

在你惊叹 AI 绘画能力的同时,可能还不知道的是,扩散模型在其中起了大作用。就拿热门模型 OpenAI 的 DALL·E 2 来说,只需输入简单的文本(prompt),它就可以生成多张 1024*1024 的高清图像。

在 DALL·E 2 公布没多久,谷歌随后发布了 Imagen,这是一个文本到图像的 AI 模型,它能够通过给定的文本描述生成该场景下逼真的图像。

就在前几天,Stability.Ai 公开发布文本生成图像模型 Stable Diffusion 的最新版本,其生成的图像达到商用级别。

自 2020 年谷歌发布 DDPM 以来,扩散模型就逐渐成为生成领域的一个新热点。之后 OpenAI 推出 GLIDE、ADM-G 模型等,都让扩散模型火出圈。

很多研究者认为,基于扩散模型的文本图像生成模型不但参数量小,生成的图像质量却更高,大有要取代 GAN 的势头。

不过,扩散模型背后的数学公式让许多研究者望而却步,众多研究者认为,其比 VAE、GAN 要难理解得多。

近日,来自 Google Research 的研究者撰文《 Understanding Diffusion Models: A Unified Perspective 》,本文以极其详细的方式展示了扩散模型背后的数学原理,目的是让其他研究者可以跟随并了解扩散模型是什么以及它们是如何工作的。

f462854ff3995488a47c4bcc59e2add7.jpeg

论文地址:https://arxiv.org/abs/2208.11970

至于这篇论文有多「数学」,论文作者是这样描述的:我们以及其令人痛苦的细节(excruciating detail)展示了这些模型背后的数学。

论文共分为 6 部分,主要包括生成模型;ELBO、VAE 和分级 VAE;变分扩散模型;基于分数的生成模型等。

4fa300ab97d724c4de9f4c9ac682e0e1.jpeg

以下摘取了论文部分内容进行介绍:

生成模型

给定分布中的观察样本 x,生成模型的目标是学习为其真实数据分布 p(x) 进行建模。模型学习完之后,我们就可以生成新的样本。此外,在某些形式下,我们也可以使用学习模型来进行评估观察或对数据进行采样。

当前研究文献中,有几个重要方向,本文只在高层次上简要介绍,主要包括:GAN,其对复杂分布的采样过程进行建模,该过程以对抗方式学习。生成模型,我们也可称之为「基于似然,likelihood-based」的方法,这类模型可以将高似然分配给观察到的数据样本,通常包括自回归、归一化流、VAE。基于能量的建模,在这种方法中,分布被学习为任意灵活的能量函数,然后被归一化。在基于分数的生成模型中,其没有学习对能量函数本身进行建模,而是将基于能量模型的分数学习为神经网络。

在这项研究中,本文探索和回顾了扩散模型,正如文中展示的那样,它们具有基于可能性和基于分数的解释。

变分扩散模型

以简单的方式来看,一个变分扩散模型(Variational Diffusion Model, VDM)可以被考虑作为具有三个主要限制(或假设)的马尔可夫分层变分自编码器(MHVAE),它们分别为:

  • 潜在维度完全等同于数据维度;

  • 每个时间步上潜在编码器的结构没有被学到,它被预定义为线性高斯模型。换言之,它是以之前时间步的输出为中心的高斯分布;

  • 潜在编码器的高斯参数随时间变化,过程中最终时间步 T 的潜在分布标是准高斯分布。

03dbef3cf96a1dabd3a6386d116c89be.jpeg

变分扩散模型的视觉展示图。

此外,研究者明确维护了来自标准马尔可夫分层变分自编码器的分层转换之间的马尔可夫属性。他们对以上三个主要假设的含义一一做了扩展。

从第一个假设开始,由于符号的滥用,现在可以将真实数据样本和潜在变量表示为 x_t,其中 t=0 表示真实样本数据,t ∈ [1, T] 表示相应的潜在变量,它的层级结构由 t 进行索引。VDM 后验与 MHVAE 后验相同,但现在可以重写为如下:

4f832080c6b7d29f193eec42eb9aca48.jpeg

从第二个假设,已知的是编码器中每个潜在变量的分布都是以之前分层潜在变量为中心的高斯分布。与 MHVAE 不同的是,编码器在每个时间步上的结构没有被学到,它被固定为一个线性高斯模型,其中均值和标准差都可以预先设置为超参数或者作为参数学得。在数学上,编码器转换表示为如下:

5bc03bab0494a1719c81dcf07ffbb299.jpeg

对第三个假设,α_t 根据固定或可学得的 schedule 而随时间演化,使得最终潜在变量 p(x_T) 的分布为标准高斯分布。然后可以更新 MHVAE 的联合分布,将 VDM 的联合分布写为如下:

7dc98a2cfbfbfef93ed6b9f2eb03a06e.jpeg

总的来说,这一系列假设描述了一个图像随时间演化的稳定噪声。研究者通过添加高斯噪声渐进地破坏图像,直到最终变得与高斯噪声完全相同。

与任何 HVAE 相似的是,VDM 可以通过最大化证据下界(Evidence Lower Bound, ELBO)来优化,可以推导如下:

041d92e8855cab8bcf50945abd53766e.jpeg

ELBO 的解释过程如下图 4 所示:

ba28b8ebe794002197d6736e3c988f80.jpeg

三种等价的解释

正如之前证明的,一个变分扩散模型可以简单地通过学习神经网络来训练,以从任意噪声版本 x_t 及其时间索引 t 中预测原始自然图像 x_0。但是,x_0 有两个等价的参数化,使得可以对 VDM 展开两种进一步的解释。

首先可以利用重参数化技巧。在推导 q(x_t|x_0) 的形式时,文中公式 69 可以被重新排列为如下:

402beb51d1868d203afe28bea44e90ba.jpeg

将其带入之前推导出的真实去噪转换均值 µ_q(x_t, x_0),则可以重新推导如下:

edf9fda86fbe96eff4eccae2da83c7d4.jpeg

因此可以将近似去噪转换均值 µ_θ(x_t, t) 设置为如下:

893f46c9f716bf53a494640ef1f044ec.jpeg

并且相应的优化问题变成如下:

eac2be0029ab6aa86338b1840e21be8c.jpeg

为了推导出变分扩散模型的三种常见解释,需要求助于 Tweedie 公式,它指的是当给定样本时,指数族分布的真实均值可以通过样本的最大似然估计(也称为经验均值)加上一些涉及估计分数的校正项来估计。

从数学上讲,对于一个高斯变量 z ∼ N (z; µ_z, Σ_z),Tweedie 公式表示如下:

bfe7e4bdbdb49c0246da3d4aefa2b248.jpeg

基于分数的生成模型

研究者已经表明,变分扩散模型可以简单地通过优化一个神经网络 s_θ(x_t, t) 来学得,以预测一个得分函数∇ log p(x_t)。但是,推导中的得分项来自 Tweedie 公式的应用。这并不一定为解读得分函数究竟是什么或者它为什么值得建模提供好的直觉或洞见。

好在可以借助另一类生成模型,即基于分数的生成模型,来获得这种直觉。研究者的确证明了之前推导出的 VDM 公式具有等价的基于分数的生成建模公式,使得可以在这两种解释之间灵活切换。

为了理解为什么优化一个得分函数是有意义的,研究者重新审视了基于能量的模型。任意灵活的概率分布可以写成如下形式:

e404734e31a05ae4e618555ce7748f53.jpeg

避免计算或建模归一化常数的一种方式是使用神经网络 s_θ(x) 来学习分布 p(x) 的得分函数∇ log p(x)。这是观察到了公式 152 两边可以进行对数求导:

6893227e84205b1ca531e473ff78a7f8.jpeg

它可以自由地表示为神经网络,不涉及任何归一化常数。通过利用真值得分函数最小化 Fisher 散度,可以优化得分函数。

4f1a68f55ed225171990ad2c9054e4ca.jpeg

直观地讲,得分函数在数据 x 所在的整个空间上定义了一个向量场,并指向模型,具体如下图 6 所示。

7f80753737ca46a3b1e8e9f3bc213767.jpeg

最终,研究者从训练目标和抽样过程两方面,建立了变分扩散模型和基于分数的生成模型之间的显式关联。

未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)大脑研究计划,构建互联网(城市)大脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。每日推荐范围未来科技发展趋势的学习型文章。目前线上平台已收藏上千篇精华前沿科技文章和报告。

  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

f46c7d5bebee7ea10855b2a34cf69f35.jpeg

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/481638.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

国科大prml13-概率图(CRF,HMM)

文章目录1. 有向概率图模型(贝叶斯网络)1.1 概率分布1.2 表示1.3 条件独立性1.3.2 检验条件独立算法(贝叶斯球)2. 无向图模型(马尔科夫随机场)2.1 条件独立性2.2 概率分布2.3 表示无向图的条件独立性判断3.…

解读2022城市大脑首批三项标准(新版)

来源:远望智库预见未来解读2022城市大脑首批三项标准(新版)2022年9月1日,中国指挥与控制学会在京召开《城市大脑首批标准新闻发布会》正式发布《城市大脑 术语》、《城市大脑顶层规划和总体架构》;《城市大脑数字神经元…

单个细胞比科学家们以前认为的更聪明

来源:生物通细胞不仅根据生长因子等外部信号做出选择,还根据从细胞内部接收到的信息做出选择。每一天,人类都在为自己做选择。为了确保做出的决定适合当时的情况,这些决定通常需要结合一系列上下文线索。我们的感官为我们提供了做…

国科大prml14-独立于算法的机器学习(boosting/

文章目录1.哲学定理2. 重采样resampling2.1 bagging2.2 boosting2.3 adaboost2.3.2训练误差2.4 active learning3. 估计和比较分类器--交叉检验3.1 交叉验证5.adaboost在人脸检测上的应用5.1肤色模型5.2基于AdaBoost的快速人脸检测如何选择好的模型和评价模型?独立于…

解读2022中国城市大脑首批三项标准(新版)

来源:远望智库预见未来解读2022城市大脑首批三项标准(新版)2022年9月1日,中国指挥与控制学会在京召开《城市大脑首批标准新闻发布会》正式发布《城市大脑 术语》、《城市大脑顶层规划和总体架构》;《城市大脑数字神经元…

国科大prml15-基于浅层模型的计算机视觉--以人脸识别为例

文章目录2. 特征设计与提取过程q2.1 局部特征--SIFT2.2局部特征HOG3. 特征汇聚或变换h3.1BoVW视觉词袋模型3.2PCA4.以人脸识别为例4.1 主动统计模型4.1.1ASM(active shape model)4.1.2 AAM主动表观模型4.2人脸特征提取和比对特征脸Fisherfaces方法--本质(Fisher线性…

DeepMind又放大招!用大型语言模型实现可信推理,距离模型可解释性又近了一步...

来源:AI前线整理:核子可乐、冬梅可解释性,已经成为当今机器学习研究与开发领域最紧迫的难题之一。尽管目前的大规模语言模型(LM)已经展现出令人印象深刻的问答能力,但其固有的不透明性却导致人们无法理解模…

机器智能的未来

来源:混沌巡洋舰今年8月,马斯克发布推文称将会在10月31日,更新有关脑机接口的最新进展。近几年,人工智能方面的发展一直在取得突破和进展,人们对这方面的期待和研究却一直没有停止。比尔盖茨2021年度书单重磅推荐了《千…

国科大prml15-目标检测

改进R-CNN缩放图片SPPNet允许不同大小输入,SPP(pooling)归一化到相同尺寸Fast RCNN1.SPP->Rol pooling;2.改进边框校准Smooth L1 loss;3.全连接加速Truncated SVDFaster RCNNRPN直接生成候选框(共享CNN),anchor boxMask R-CNN实例分割&…

大模型铺天盖地出现后,计算机科学终成「自然科学」

来源:选自Communications of the ACM作者:Subbarao Kambhampati(美国人工智能学会前主席)编译:机器之心编辑:rome rome当部分人工智能正偏离其工程本源,AI 研究的方向变化,超出了我们…

Transformers 如何模仿大脑的某些部分

来源:ScienceAI编译:白菜叶了解大脑如何组织和访问空间信息「我们在哪里」,「拐角处有什么」,「如何到达那里」,这仍然是一项艰巨的挑战。该过程涉及从数百亿个神经元中调用整个记忆网络和存储的空间数据,每…

国科大prml-往年习题

文章目录1 模式识别过拟合欠拟合概率图概率图-独立性HMM哲学理论adaboost贝叶斯贝叶斯判别贝叶斯判别-正态分布贝叶斯估计贝叶斯决策朴素贝叶斯半监督无监督聚类GMMEM极大似然估计判别函数线性判别和非线性判别线性判别函数的数量(M分类感知机势函数法9.势函数法&am…

城市大脑已经几岁?城市大脑发展成熟度的年龄评估模型

说明:该论文由科学院研究团队刘颖、刘锋于2022年7月发表在《科技导报》第14期,是对城市大脑发展成熟度的探索研究,为构建城市大脑发展成熟度评估规范提供参考。根据研究团队建立的评估模型,进行初步评估,提出目前城市大…

GMM

GMM 一个类一个正态分布N(μk,Σk)N(\mu_k,\Sigma_k)N(μk​,Σk​) 有监督无监督半监督目标函数Llogp(Xl,Yl∥θ)Σi1llogp(yi∥θ)p(xi∥yi,θ)Σi1llogαyiN(xi∥θyi)Llogp(X_l,Y_l\|\theta)\Sigma_{i1}^llogp(y_i\|\theta)p(x_i\|y_i,\theta)\\\Sigma_{i1}^llog \alpha_…

城市大脑已经几岁?城市大脑发展成熟度的年龄评估模型(修改版)

说明:该论文由科学院研究团队刘颖、刘锋于2022年7月发表在《科技导报》第14期,是对城市大脑发展成熟度的探索研究,为构建城市大脑发展成熟度评估规范提供参考。根据研究团队建立的评估模型,进行初步评估,提出目前城市大…

2022年 AI 技术成熟度曲线

来源:Gartner公司编辑:蒲蒲近日,Gartner发布了最新的《2022年人工智能技术成熟度曲线》报告,报告称尽早采用复合型人工智能(AI)、决策智能等AI技术将给企业机构带来明显的竞争优势,缓解AI模型脆…

国科大prml--SVM

拉格朗日的原始问题是minw,bmaxλLmin_{w,b} max_{\lambda} Lminw,b​maxλ​L对偶问题是maxλminw,bLmax_{\lambda} min_{w,b}Lmaxλ​minw,b​L 原问题拉格朗日对偶问题分界面最终参数hard marginminw12∥w∥2min_w \frac{1}{2}\|w\|^2minw​21​∥w∥2约束yi(wTxi)>1,对…

科学家们正在使用人工智能来构想革命性的新蛋白质

来源:ScienceAI编译:白菜叶6 月,韩国监管机构授权使用人类设计的新型蛋白质制成首个药物,即 COVID 疫苗。该疫苗基于研究人员近十年前通过劳动密集型试错过程创造的球形蛋白质「纳米颗粒」。现在,由于人工智能&#xf…

多模态认知计算

来源:图灵人工智能 日常生活中, 人类至少利用视觉, 听觉等多种感官理解周围环境, 通过整合多种感知模态, 形成对事件的整体认识. 为使机器更好地模仿人类的认知能力, 多模态认知计算模拟人类的“联 觉”(Synaesthesia), 探索图像, 视频, 文本, 语音等多模态输入的高…