扩散模型就是自动编码器!DeepMind研究学者提出新观点并论证

2066c2d5b8935fefbf19799f1c3cebcd.png

来源:明敏 发自 凹非寺
量子位 | 公众号 QbitAI

由于在图像生成效果上可以与GAN媲美,扩散模型最近成为了AI界关注的焦点。

谷歌、OpenAI过去一年都提出了自家的扩散模型,效果也都非常惊艳。

a87a14f8d23739b2a9cdd473a947cb71.gif

另一边,剑桥大学的学者David Krueger提出,自动编码器会不会卷土重来成为研究热潮。

5c4d9dcf3b233d012ef33217e49a5c50.png

就在最近,DeepMind的一位研究科学家Sander Dieleman基于以上两股热潮,提出了自己的观点:

扩散模型就是自动编码器啊!

f9d2ffda5a6f75905bc6456d807e2c4d.png

这一观点立刻引起了不少网友的注意,大家看了Sander的阐述,都觉得说得很有道理,并且给了自己不少启发。

7bed2a57e467d26320596ae2a4bb00d7.png

那么,他到底是如何论证自己这一观点的呢?

我们一起来看。

去噪自动编码器=扩散模型

想要看透这二者之间的联系,首先要看看它们自身的特点。

扩散模型是一种新的图像生成方法,其名字中的“扩散”本质上是一个迭代过程。

它最早于2015提出,是定义了一个马尔可夫链,用于在扩散步骤中缓慢地向数据添加随机噪声,然后通过学习逆转扩散过程从噪声中构建所需的数据样本。

相比GAN、VAE和基于流的生成模型,扩散模型在性能上有不错的权衡,最近已被证明在图像生成方面有很大的潜力,尤其是与引导结合来兼得保真度和多样性。

58ff2e9600febbf525fdd14430bc044c.png

比如去年谷歌提出的级联(Cacade)扩散模型SR3,就是以低分辨率图像为输入,从纯噪声中构建出对应的高分辨率图像。

595df9036e21fe07847864e38f6490c8.gif

OpenAI的GLIDE、ADM-G也是用上了扩散模型,以此能生成更加更真实、多样、复杂的图像。

96fa7e52929bc1f7c92472c99386f7da.png
△GLIDE模型效果

接下来,再来看自动编码器的原理。

自动编码器可以理解为一个试图去还原原始输入的系统,模型如下所示:

cb762e08c400cea14e319149789cb1aa.png

它的主要目的是将输入转换为中间变量,然后再将中间变量转化为输出,最后对比输入和输出,使它们二者之间无限接近。

当模型框架中存在瓶颈层或者输入被损坏时,自动编码器能够学习输入本质特征的特性,就可以大显身手了。

在这里,作者主要拿来和扩散模型对比的,便是去噪自动编码器

它可以将损坏数据作为输入,通过训练来预测未损坏的原始数据作为输出。

看到这里是不是有点眼熟了?

向输入中加入噪声,不就是一种破坏输入的方法吗?

那么,去噪自动编码器和扩散模型,原理上不就是有着异曲同工之妙吗?

7d8418eafaede6048e82afac567f06a5.png


二者是如何等价的?

为了验证自己的这一想法,作者从原理方面对扩散模型进行了拆解。

扩散模型的关键,在于一个分数函数 (score function)a5881dbfeaa34e4fbaf4c5037c79f63b.png

需要注意的是,这和14d46660148b3f6084908cd346e021a5.png不同。(求梯度的参数不同)

通过后者,我们可以知道如何改变模型参数来增加向下输入的可能性,而前者能够让我们知道如何改变输入本身来增加可能性。

在训练过程中,希望在去噪中的每一点都使用相同的网络。

为了实现这个,需要引入一个额外的输入5c1b071870c4e11c93deeeff8236bbaa.png,由此可以看到在去噪中进行到了哪一部分d369bd5bef71022c944eeae490a6614a.png

当t=0时,对应无噪声数据;t=1时,对应纯噪声数据。

训练这个网络的方法,就是用添加噪声0b0de1b82ae8e2a572a362165c0d2c3e.png来破坏输入x。然后从b818dea11f99d1a24eaf0724fa0ea675.png中预测430294578a72b4d9c8233f0d2598b84c.png

需要注意的是,在这里方差大小取决于t,因为它可以对应特定点的噪声水平。损失函数通常使用均方误差(MSE),有时会用 λ(t)进行加权,因此某些噪声水平会优先于其他噪声水平:

7fed3640da1c6c9874939e76e4528155.png

假设λ(t)=1时,一个关键的观测值为603fa6ba1cc330a0766a91ab04969ac0.png或 x(它们二者是等价的),在这里可以用公式:

4818af3b6da3244ab49d86d80b54fa6d.png

为了确保它们是等价的,可以考虑使用训练模型3850218d1ab78deaa2925d74b80cb5bd.png来预测85175f241051555783785c3754d98b39.png,并加上一个新的残差连接。从输入到输出的比例系数均为-1,这个调整后的模型则实现了:

fa73b850790ab5a0ccdf43476783995c.png

由此,一个扩散模型便逐渐变成一个去噪自动编码器了!

One More Thing

不过博客的作者也强调,虽然扩散模型和去噪自动编码器的效果等价,但是二者之间不可完全互换。

并且以上得到的这个去噪自动编码器,和传统类型也有不同:

  • 第一,附加输入t可以使单个模型用一组共用参数来处理噪声级别不同的情况;

  • 第二,因为更加关注模型的输出,所以内部没有瓶颈层,这可能会导致“弊大于利”的结果。

而作者更想强调的是这二者之间存在的联系。

此外他还表示,模型效果好的关键应该在于共用参数,这种方法已经被广泛应用在表示学习上。

从这些成果中也能发现一个规律:

  • 噪声含量越高的模型,往往更容易学习到图像的特征;

  • 噪声含量越低的模型,则会更专注于细节。

2e24cf961330fe8e824f7311c860ffdf.png

作者认为以上规律值得进一步研究:

这意味着随着噪声水平逐步降低,扩散模型能够补充图像细节也就越来越多。

最后,我们再来介绍一下这一发现的提出者——Sander Dieleman。

他现在是DeepMind的一位研究科学家,主要研究领域为生成模型和音乐合成。

参与的主要研究工作有Spotify音乐平台的内容推荐模型。

参考链接:
[1]https://benanne.github.io/2022/01/31/diffusion.html
[2]https://twitter.com/sedielem

未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)大脑研究计划,构建互联网(城市)大脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。每日推荐范围未来科技发展趋势的学习型文章。目前线上平台已收藏上千篇精华前沿科技文章和报告。

  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

b65f0fb734094ee7c943250b79c5ef63.png

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/482558.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

2019已悄然过半

2019过半,不知不觉已进入秋天,今年上海夏天格外凉爽,没感觉热就结束了。上半年总体感觉归于平淡,但是平平淡淡才是真嘛。年初制定的个人计划基本完成,关键是难度系数都不高,下半年有两项重要考核正在等着&a…

关于欧盟的芯片法案,ASML是这样看的!

来源:光电汇OESHOW近日,欧盟发布了一个芯片法案,ASML随后便公开表示了他们对这个答案的看法。内容如下:塑造我们生活的智能互联世界的全球大趋势正在推动对微芯片的需求显著增长。最近的芯片短缺凸显了复杂的全球半导体生态系统中…

day29 socket编程TCP和UDP

1 发送大文件 2 UDP基本使用 3 UDP实现建议版本的QQ 4 TCP与UDP之间的区别 5 socketserver模块 6 异常处理 1 发送大文件 通过客户端上传大文件到服务端 服务端 import socket import json import structserver socket.socket() server.bind((127.0.0.1, 8080)) server.liste…

万字长文!DeepMind科学家总结2021年的15个高能研究

来源:新智元2021年ML和NLP依然发展迅速,DeepMind科学家最近总结了过去一年的十五项亮点研究方向,快来看看哪个方向适合做你的新坑!最近,DeepMind科学家Sebastian Ruder总结了15个过去一年里高能、有启发性的研究领域&a…

编程书籍

计算机书籍控 http://bestcbooks.com/recommend/most-influential-book/ 转载于:https://www.cnblogs.com/water-bear/p/11325111.html

情人节特刊| 爱的神经机制

来源:浙江大学学术委员会文:周炜1在哺乳动物的物种中,仅有不到10%的物种能够形成基于一夫一妻制的配对关系。随着时间的推移,通过选择性地寻找伴侣和与伴侣互动,夫妻关系得以维持和加强。大多数实验室啮齿动物包括大小…

应用安全 - 渗透测试 - .net网站

注入 注入 单引号检测 - 多数使用MSSQL数据库常规注入绕过 "or | or oror | oror" 上传 加图片头GIF89A 转载于:https://www.cnblogs.com/AtesetEnginner/p/11327462.html

为了自动驾驶,谷歌用NeRF在虚拟世界中重建了旧金山市

来源:机器学习研究组订阅真不用来做成元宇宙?训练自动驾驶系统需要高精地图,海量的数据和虚拟环境,每家致力于此方向的科技公司都有自己的方法,Waymo 有自己的自动驾驶出租车队,英伟达创建了用于大规模训练…

day30 并发编程

大文件上传思维逻辑 服务端 # 1.socket创建TCP服务 # 2.连接循环 # 3.通信循环接受固定长度的字典的报头解析获取字典数据的真实长度接受字典数据 解码 反序列化成字典从字典中获取文件大小 以及文件名等其他信息 # 4.循环接受文件数据文件操作(wb) 接受一行往文件中写入一行 客…

人工智能可以自己编码?2022年这8个人工智能趋势值得关注!

来源:产业大视野译者:Sambodhi1. AI-on-5G2022 年,工业 AI 和 AI-on-5G 物联网应用将会成为主流。想象一下,当我我以元宇宙为目标的时候,我们对物理空间的升级方式同样令人印象深刻。AI-on-5G 组合计算基础设施为传感器…

通过OracleDataReader来读取BLOB类型的数据

在实际的应用过程中,需要把大块的二进制数据存储在数据库中。读取这些大块的数据,可以通过强制类型转换成为byte数组,但是当这个二进制数据体够大时(几十兆或者上百兆),一次并不能获取到他的完整长度&#…

完美的优化目标,人工智能的盲点

来源:AI科技评论译者:辛西娅编辑:维克多人工智能(AI)系统的脆弱性一直被行业人员所诟病,稍微的数据错误就会使系统发生故障。例如在图像识别中,图片微小的像素改变,不会干扰人类视觉…

C#中创建对象的方式

C#中对象创建的方式 使用new 创建使用对象的MemberwiseClone使用工厂方法创建使用序列化和反序列化创建使用反射创建使用类型推导(c# 3.0) 另外c# 3.0 中增加了一种类型扩展方法。 转载于:https://www.cnblogs.com/zzj8704/archive/2008/08/05/1260848.h…

转:Some interesting facts about SharePoint 2007 Search

Some interesting facts about SharePoint 2007 Search Published 14 November 08 06:21 PM | harikumh Can we search in any language other than English? Do we need language pack for the same? Language Pack has nothing to do with search in languages other th…

宇宙和世界真的是虚拟的吗?

来源:数学中国 2021年元宇宙无疑成为科技领域最火爆的概念之一,扎克伯格曾表示未来脸书将从一家社交媒体公司转变为一家元宇宙公司,之后元宇宙这个词席卷了整个互联网与投资圈。在大多数人还搞不懂元宇宙是什么的时候,科技公司们已…

Web高效管理多个项目的SVN仓库

转至:https://www.jianshu.com/p/a0af00642585 采用方案 LinuxApacheSubversionMySQLJDKTomcatSvnadmin 目录 0.安装准备 0.1 升级系统软件包 0.2 关闭SELinux 0.3 安装wget 1.部署Apache 1.1 安装apache 1.2 修改配置文件 1.3 启动apache服务 1.4 调整防火墙,允许8…

粒子物理学有了新的基础数学理论

来源:科技日报科技日报柏林2月13日电 (记者李山)近日,来自奥地利和英国的科学家共同发表了一个粒子物理学的基础数学新理论。他们定义和研究了黎曼曲面上存在的非常稳定的希格斯丛,其蕴涵了全局幂零锥稳定分量的多重性…

01.MyBatis入门

MyBatis入门&#xff1a; 第一天接触Mybatis&#xff0c;总结一下入门案例的流程: 首先导入Mybatis的jar包和数据库的驱动包 1.创建数据表和实体类 2.创建一个表和实体类映射的xml配置文件&#xff0c;具体配置如下&#xff1a; 1 <?xml version"1.0" encoding&q…

2022年重大颠覆性科技创新趋势报告(完整版)

来源&#xff1a;点滴科技资讯未来智能实验室的主要工作包括&#xff1a;建立AI智能系统智商评测体系&#xff0c;开展世界人工智能智商评测&#xff1b;开展互联网&#xff08;城市&#xff09;大脑研究计划&#xff0c;构建互联网&#xff08;城市&#xff09;大脑技术和企业…

02.Mybatis的动态代理方式实现增删改查

动态代理的方式实现增删改查: 通过约定的方式定位sql语句 约定 > 配置文件 > 硬编码 约定的目标是省略掉通过硬编码的方式定位sql的代码&#xff0c;通过接口直接定位出sql语句,以下代码为通过硬编码的方法定位sql: 1      //读取conf.xml 配置文件2 Reader…