【Deep Learning】Variational Autoencoder ELBO:优美的数学推导

Variational Autoencoder

  • In this note, we talk about the generation model, where x x x represents the given dataset, z z z represents the latent variable, θ , ϕ \theta,\phi θ,ϕ denote the parameters of models.

Latent Variable Model

  • Generate x x x by latent variable z z z: p ( x , z ) = p ( x ) p ( x ∣ z ) p(x,z)=p(x)p(x|z) p(x,z)=p(x)p(xz)
  • Training: Maximum likelihood

L ( θ ) = ∑ x ∈ D log ⁡ p ( x ) = ∑ x ∈ D log ⁡ ∑ z p ( x , z ; θ ) = ∑ x ∈ D log ⁡ ∑ z q ( z ) p ( x , z ; θ ) q ( z ) Important Sampling ≥ ∑ x ∈ D ∑ z q ( z ) log ⁡ p ( x , z ; θ ) q ( z ) Concavcity of log \begin{align*} L(\theta)&=\sum_{x\in D}\log p(x)\\ &=\sum_{x\in D}\log \sum_{z}p(x,z;\theta)\\ &=\sum_{x\in D}\log \sum_{z} q(z)\frac{p(x,z;\theta)}{q(z)} & \text{Important Sampling}\\ &\ge\sum_{x\in D}\sum_{z}q(z)\log \frac{p(x,z;\theta)}{q(z)} & \text{Concavcity of log} \end{align*} L(θ)=xDlogp(x)=xDlogzp(x,z;θ)=xDlogzq(z)q(z)p(x,z;θ)xDzq(z)logq(z)p(x,z;θ)Important SamplingConcavcity of log

  • Assumption: ∑ z q ( z ) = 1 \sum_z q(z)=1 zq(z)=1. The summation can be regarded as expectation(just for simplicity)

ELBO

  • In the above deriviation, ∑ z q ( z ) log ⁡ p ( x , z ; θ ) q ( z ) \sum_zq(z)\log \frac{p(x,z;\theta)}{q(z)} zq(z)logq(z)p(x,z;θ) is the Evidence Lower Bound of log ⁡ p ( x ) \log p(x) logp(x)
  • When q ( z ) = p ( z ∣ x ; θ ) q(z)=p(z|x;\theta) q(z)=p(zx;θ),

∑ z q ( z ) log ⁡ p ( x , z ; θ ) q ( z ) = log ⁡ p ( x ; θ ) \sum_zq(z)\log\frac{p(x,z;\theta)}{q(z)}=\log p(x;\theta) zq(z)logq(z)p(x,z;θ)=logp(x;θ)

  • We can set q ( z ) = p ( z ∣ x ; θ ) q(z)=p(z|x;\theta) q(z)=p(zx;θ) to optimize a tight lowerbound of log ⁡ p ( x ; θ ) \log p(x;\theta) logp(x;θ)

    • We call p ( z ∣ x ; θ ) p(z|x;\theta) p(zx;θ) posterior.
    • Don’t know p ( z ∣ x ; θ ) p(z|x;\theta) p(zx;θ)? Use network q ( z ; ϕ ) q(z;\phi) q(z;ϕ) to paratermize p ( z ∣ x ) p(z|x) p(zx).
    • Optimize q ( z ; ϕ ) ≈ p ( z ∣ x ; θ ) q(z;\phi)\approx p(z|x;\theta) q(z;ϕ)p(zx;θ) and p ( x ∣ z ; θ ) p(x|z;\theta) p(xz;θ) alternatively.
  • Since we use q ( z ; ϕ ) q(z;\phi) q(z;ϕ) to approximate p ( z ∣ x ; θ ) p(z|x;\theta ) p(zx;θ), what is the distance metric between them?

    • K L ( q ∣ ∣ p ) = ∑ z q ( z ) log ⁡ q ( z ) p ( z ) KL(q||p)=\sum_z q(z)\log \frac{q(z)}{p(z)} KL(q∣∣p)=zq(z)logp(z)q(z)
      • Compared to K L ( p ∣ ∣ q ) KL(p||q) KL(p∣∣q), K L ( q ∣ ∣ p ) KL(q||p) KL(q∣∣p) is reverse KL.
        • Empirically, We often use K L ( p ∣ ∣ q ) KL(p||q) KL(p∣∣q), where p p p is the groundtruth distribution, that’s why K L ( q ∣ ∣ p ) KL(q||p) KL(q∣∣p) is ‘reverse’.
    • We call the procedure to find such ϕ \phi ϕ by Variational Inference: min ⁡ ϕ K L ( q ∣ ∣ p ) \min_\phi KL(q||p) minϕKL(q∣∣p).
  • Look at the optimization of K L ( q ∣ ∣ p ) KL(q||p) KL(q∣∣p):
    K L ( q ( z ; ϕ ) ∣ ∣ p ( z ∣ x ) ) = ∑ z q ( z ; ϕ ) log ⁡ q ( z ; ϕ ) p ( z ∣ x ) = ∑ z q ( z ; ϕ ) log ⁡ q ( z ; ϕ ) p ( x ) p ( z , x ) = log ⁡ p ( x ) − ∑ z q ( z ; ϕ ) log ⁡ p ( z , x ) q ( z ; ϕ ) \begin{align*} KL(q(z;\phi)||p(z|x))&=\sum_{z}q(z;\phi)\log \frac{q(z;\phi)}{p(z|x)}\\ &=\sum_{z}q(z;\phi)\log \frac{q(z;\phi)p(x)}{p(z,x)}\\ &=\log p(x)-\sum_zq(z;\phi)\log \frac{p(z,x)}{q(z;\phi)} \end{align*} KL(q(z;ϕ)∣∣p(zx))=zq(z;ϕ)logp(zx)q(z;ϕ)=zq(z;ϕ)logp(z,x)q(z;ϕ)p(x)=logp(x)zq(z;ϕ)logq(z;ϕ)p(z,x)
    Amazing! ∑ z q ( z ; ϕ ) log ⁡ p ( z , x ) q ( z ; ϕ ) \sum_{z}q(z;\phi)\log \frac{p(z,x)}{q(z;\phi)} zq(z;ϕ)logq(z;ϕ)p(z,x) is just the ELBO! When we minimize K L ( q ∣ ∣ p ) KL(q||p) KL(q∣∣p), we are also maximizing ELBO, which means the objective we alternatively trained for p ( x ∣ z ; θ ) p(x|z;\theta) p(xz;θ) and q ( z ; ϕ ) q(z;\phi) q(z;ϕ) is magically the same!

    What’s more, we can also find that
    log ⁡ p ( x ) = K L ( q ( z ; ϕ ) ∣ ∣ p ( z ∣ x ) ) + E L B O = A p p r o x E r r o r + E L B O \log p(x) = KL(q(z;\phi)||p(z|x)) + ELBO=ApproxError+ELBO logp(x)=KL(q(z;ϕ)∣∣p(zx))+ELBO=ApproxError+ELBO
    which verifies that ELBO is the lowerbound of log ⁡ p ( x ) \log p(x) logp(x), and there difference is exactly the approximate error between q ( z ; ϕ ) q(z;\phi) q(z;ϕ) and p ( z ∣ x ) p(z|x) p(zx).

  • Notice: q ( z ; ϕ ) ≈ p ( z ∣ x , θ ) q(z;\phi)\approx p(z|x,\theta) q(z;ϕ)p(zx,θ). q q q depends on x x x, hence we can use q ( z ∣ x ; ϕ ) q(z|x;\phi) q(zx;ϕ) instead of q ( z ; ϕ ) q(z;\phi) q(z;ϕ), named Amortized Variational Inference.

  • Now, only ELBO is our only joint objective. Train θ , ϕ \theta,\phi θ,ϕ together!
    J ( θ , ϕ ; x ) = ∑ z q ( z ∣ x ; ϕ ) log ⁡ p ( x , z ; θ ) q ( z ∣ x ; ϕ ) = ∑ z q ( z ∣ x ; ϕ ) ( log ⁡ p ( x ∣ z ; θ ) + log ⁡ p ( z ; θ ) − log ⁡ q ( z ∣ x ; ϕ ) ) = ∑ z q ( z ∣ x ; ϕ ) log ⁡ p ( x ∣ z ; θ ) − ∑ z q ( z ∣ x ; ϕ ) log ⁡ q ( z ∣ x ; ϕ ) log ⁡ p ( z ; θ ) = E z ∼ q ( ⋅ ∣ x ; ϕ ) log ⁡ p ( x ∣ z ; θ ) − K L ( q ( z ∣ x ; ϕ ) ∣ ∣ p ( z ; θ ) ) \begin{align*} J(\theta,\phi;x)&=\sum_z q(z|x;\phi)\log\frac{p(x,z;\theta)}{q(z|x;\phi)}\\ &=\sum_z q(z|x;\phi)\left( \log p(x|z;\theta)+\log p(z;\theta)-\log q(z|x;\phi)\right)\\ &=\sum_z q(z|x;\phi)\log p(x|z;\theta)-\sum_zq(z|x;\phi)\frac{\log q(z|x;\phi)}{\log p(z;\theta)}\\ &=\mathbb{E}_{z\sim q(\cdot|x;\phi)}\log p(x|z;\theta )-KL(q(z|x;\phi)||p(z;\theta)) \end{align*} J(θ,ϕ;x)=zq(zx;ϕ)logq(zx;ϕ)p(x,z;θ)=zq(zx;ϕ)(logp(xz;θ)+logp(z;θ)logq(zx;ϕ))=zq(zx;ϕ)logp(xz;θ)zq(zx;ϕ)logp(z;θ)logq(zx;ϕ)=Ezq(x;ϕ)logp(xz;θ)KL(q(zx;ϕ)∣∣p(z;θ))

VAE

  • Pratically, we obtain VAE from E L B O ELBO ELBO.

  • Assume that
    p ( z ) ∼ N ( 0 , I ) q ( z ∣ x ; ϕ ) ∼ N ( μ ϕ ( x ) , σ ϕ ( x ) ) p ( x ∣ z ; θ ) ∼ N ( μ θ ( z ) , σ μ ( z ) ) p(z)\sim N(0,I)\\q(z|x;\phi)\sim N(\mu_\phi(x),\sigma_\phi(x))\\ p(x|z;\theta)\sim N(\mu_\theta(z),\sigma_\mu(z)) p(z)N(0,I)q(zx;ϕ)N(μϕ(x),σϕ(x))p(xz;θ)N(μθ(z),σμ(z))
    They are all Gaussian, where the mean and variance are from net work.

  • Let q ( z ∣ x ; ϕ ) q(z|x;\phi) q(zx;ϕ) be the encoder, p ( x ∣ z ; θ ) p(x|z;\theta) p(xz;θ) be the decoder, then E z ∼ q ( ⋅ ∣ x ; ϕ ) log ⁡ p ( x ∣ z ; θ ) \mathbb{E}_{z\sim q(\cdot|x;\phi)}\log p(x|z;\theta ) Ezq(x;ϕ)logp(xz;θ) represents reconstruction error:

    • The error after encoding into latent space, then decoding into the original space.
    • We wish this term big, so that the original data can be recovered with high probability.
  • Re-parameterization trick:

    • In E z ∼ q ( ⋅ ∣ x ; ϕ ) log ⁡ p ( x ∣ z ; θ ) \mathbb{E}_{z\sim q(\cdot|x;\phi)}\log p(x|z;\theta ) Ezq(x;ϕ)logp(xz;θ) term, ϕ \phi ϕ is the sampling parameters, whose gradient can’t be computed.
    • Sample z ′ ∼ N ( 0 , I ) z'\sim N(0,I) zN(0,I), then compute z = μ + z ′ ⋅ σ z=\mu+z'\cdot \sigma z=μ+zσ.

Conclusion

  • The amazing and elegent mathematical deviation behind VAE inspires me to write down this blog.
  • Furthermore, VAE shows its great stability through many tasks, compared to GAN. There are still more Pro and Cons to talk about.

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/810745.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

爬楼梯问题算法

小乐爬楼梯的问题是一个经典的动态规划问题,也被称为斐波那契数列问题。因为小乐每次可以选择爬1级或2级台阶,所以到达第n级台阶的方法数等于到达第n-1级台阶的方法数加上到达第n-2级台阶的方法数。 具体来说: 如果小乐到达第n-1级台阶&…

java:字符集和字符流

字符集 规定了字符和二进制之间对应关系的一张表 字节是计算机最基本的存储单位 字符则是通过字符组成和编码而成的文本 常见字符集 1,ASCII字符集 基础字符编码标准,包含128个字符,只包括英文字母,数字和一些常见的符号 一个字节表示一个字符 所有的字符集均兼容ASCII…

open-sora

Open-Sora,高效复现类Sora视频生成方案开源!魔搭社区最佳实践教程来啦!https://mp.weixin.qq.com/s/WMQIDgZs2MBPGtx18XSXgw Open-Sora开源方案讲解开源但“平替”的方案。https://mp.weixin.qq.com/s/nPYCzgBA7hIsPZ6PCyXxKQOpen-Sora/docs…

数据分析案例(一):地区收入的PCA主成分分析

练习1 地区收入的PCA主成分分析 0.变量说明 1.导包操作 核心思路:导入基础数据操作库包,PCA、k-means 库包,数据可视化库包 import pandas as pd import numpy as np from sklearn.decomposition import PCA from sklearn.preprocessing i…

Python脚本式编程

脚本式编程 将如下代码拷贝至 hello.py文件中: print ("Hello, Python!");通过以下命令执行该脚本: $ python ./hello.pyhello,python在Linux/Unix系统中,你可以在脚本顶部添加以下命令让Python脚本可以像SHELL脚本一样可直接执…

YOLOV5训练KITTI数据集实践

目录 一、YOLOV5下载安装二、KITTI数据集三、标签格式转换四、修改配置文件五、训练六、测试 一、YOLOV5下载安装 git clone https://github.com/ultralytics/yolov5.git conda create -n yolov5 python3.8 -y conda activate yolov5 cd yolov5 pip install -r requirements.t…

2024最火的情感短视频素材在哪下载?这里有几个素材网站可以下载

在这个看似无边无际的短视频海洋中,我就像那个手握罗盘、脚踏破旧木筏的勇敢航海家,时刻准备着发现新大陆。而我的罗盘,就是那些能够指引我找到珍稀素材的网站。让我带你领略一下我的航海日记吧。九才素材网: 九才素材网提供了丰…

青少年体能素质教育平台

一、项目背景与意义 随着社会的快速发展和人们生活水平的提高,青少年体能素质教育逐渐受到社会各界的广泛关注。体能素质作为青少年全面发展的重要组成部分,对于提升他们的健康水平、增强自信心、培养团队协作精神和创新能力具有重要意义。然而&#xf…

继承【C/C++复习版】

目录 一、什么是继承?怎么定义继承? 二、继承关系和访问限定符? 三、基类和派生类对象可以赋值转换吗? 四、什么是隐藏?隐藏vs重载? 五、派生类的默认成员函数? 1)派生类构造函…

关于转义符 \ 在php正则中的匹配问题

今天做题遇到一个很经典的问题&#xff0c;记录一下&#xff0c;先看一段代码 <?php $str&#xff0c;&#xff0c;"\\"; $pattern&#xff0c;&#xff0c;"/\\/"; if(preg_match($partern,$str,$arr)) { &#xff0c;&#xff0c;&#xff0c;&…

Qt QString类

数值输入 C 提供了两种字符串的实现方式&#xff1a;一种是C风格的字符串&#xff0c;以“0”结尾&#xff1b;另一种是 C引入的 String 类型&#xff0c;即标准模板库中的类。Qt则提供了自己的字符串实现方式——QString。 Qt中的QString字符串类&#xff1a; 无须担心…

如何使用設置Python代理IP?

本文旨在探討Python代理IP、使用Python代理伺服器的好處、如何安裝 Python代理以及如何用Python設置代理IP伺服器。 什麼是Python代理伺服器&#xff1f; 用Python實現的代理IP模式&#xff0c;可用於延遲加載、日誌記錄、訪問控制或其他目的。 Python的動態類型和豐富的類支持…

SpringBoot编写一个SpringTask定时任务的方法

1&#xff0c;在启动类上添加注解 EnableScheduling//开启定时任务调度 2&#xff0c; 任务&#xff08;方法&#xff09;上也要添加注解&#xff1a; Scheduled(cron " 0 * * * * ? ") //每分钟执行一次 域&#xff1a; 秒 分 时 日 月 周 &#xff08;年&#…

如何修复在Deepin系统中因`apt-get autoremove systemd`导致的启动问题

博主猫头虎的技术世界 &#x1f31f; 欢迎来到猫头虎的博客 — 探索技术的无限可能&#xff01; 专栏链接&#xff1a; &#x1f517; 精选专栏&#xff1a; 《面试题大全》 — 面试准备的宝典&#xff01;《IDEA开发秘籍》 — 提升你的IDEA技能&#xff01;《100天精通鸿蒙》 …

选择正确的Go Module Path

最近我在查看项目代码时&#xff0c;注意到有人在go.mod文件中将module path写为com.example.foo了。根据这个写法&#xff0c;相信屏幕前的读者也可以推断出这位开发人员可能是从Java阵营转到Go的。实际开发中可能有很多开发者会使用类似的内容作为module path&#xff0c;但这…

Redis和Mysql如何保证数据一致性?

一份数据同时保存在数据库和Redis中&#xff0c;当数据发生变化时需要同时去更新Mysql和Redis&#xff0c;由于这个更新有先后顺序并且它不像Mysql里面的多表事物一样可以满足ACID的事物特性&#xff0c;所以就会出现数据一致性的问题。 对于这种情况解决方案主要有以下几种&a…

Jmeter针对多种响应断言的判断

有时候response返回的结果并非一种&#xff0c;有多种&#xff0c;需要对这几种进行判断的时候需要使用Bean Shell。 &#xff08;1&#xff09;首先获取响应数据 String response prev.getResponseDataAsString(); ResponseCode 响应状态码 responseHeaders 响应头信息 res…

Peter算法小课堂—动态规划斜率优化

大家来到这一堂课&#xff0c;就说明大家已经学过函数了 直线方程&#xff1a;ykxb 大家可以算一算。 其实&#xff0c;在数学上&#xff0c;这玩意要分类讨论 那么&#xff0c;这唯一的交点就是我们要背出来的 直线最值 这像一个分段函数 其实&#xff0c;只有部分直线能提供…

支付牌照7000万出让:成都摩宝以1.29亿挂牌价出让60.33% 股份

重庆中渝兴拍科技有限公司受重庆力帆控股有限公司委托于2024年04月26日10时至2024年04月27日10时止在淘宝网阿里资产交易平台对力帆持有成都摩宝网络科技有限公司60.332806%股权转让进行公开拍卖活动&#xff0c;起始价为129,000,000元。 相关情况如下&#xff1a; 成都摩宝网…

docker-compose yaml指定具体容器网桥ip网段subnet

docker-compose 启动yaml有时可能的容器网段与宿主机的ip冲突导致宿主机上不了网&#xff0c;这时候可以更改yaml指定subnet 宿主机内网一般是192**&#xff0c;这时候容器可以指定172* version: 3.9 services:coredns:image: coredns/coredns:1.10.0container_name: coredns…