有关熵、相对熵(KL散度)、交叉熵、JS散度、Wasserstein距离的内容

写在前面

  • 最近学了一些关于熵的内容,为增强自己对这些内容的理解,方便自己以后能够温习,随手记录了相关的介绍,可能有不对的地方,敬请谅解。

信息量

  • 任何事件都会承载一定的信息,事件发生的概率越大,其含有的信息量越少,事件发生的概率越小,其含有的信息量越多。比如昨天下雨了,是一个既定的事实,所以其信息量为0,天气预报说明天会下雨,是一个概率事件,其信息量相对较大。

  • 假设 X X X是一个离散型随机变量, p ( X = x 0 ) p(X=x_0) p(X=x0)表示随机变量取值为 x 0 x_0 x0的概率,那么 X = x 0 X=x_0 X=x0的信息量的计算公式:
    I ( x 0 ) = − log ⁡ ( p ( x 0 ) ) I(x_0) = -\log(p(x_0)) I(x0)=log(p(x0))

  • 熵描述的是随机变量不确定性的程度。

  • 假设随机变量 X X X n n n个取值, X X X取值为 x i x_i xi时的概率为 p ( x i ) p(x_i) p(xi),计算公式为:
    H ( X ) = − ∑ i = 0 n p ( x i ) log ⁡ ( p ( x i ) ) H(X) = -\sum_{i=0}^{n}p(x_i)\log(p(x_i)) H(X)=i=0np(xi)log(p(xi))

相对熵(KL散度)

  • 相对熵用于描述同一个变量在两个独立的概率分布之间的差异。

  • 假设 P P P表示真实分布, Q Q Q表示模型通过学习得到的预测分布,也称拟合分布。那么用 K L KL KL散度定义两个分布之间的差异:

    • P P P相对于 Q Q Q称为前向散度(常用于机器学习领域):
      D K L ( p ∣ ∣ q ) = E p ( log ⁡ ( p q ) ) = ∑ i = 0 n p ( x i ) log ⁡ ( p ( x i ) q ( x i ) ) D_{KL}(p||q) = E_p(\log(\frac{p}{q})) =\sum_{i=0}^n p(x_i) \log(\frac{p(x_i)}{q(x_i)}) DKL(p∣∣q)=Ep(log(qp))=i=0np(xi)log(q(xi)p(xi))

    • Q Q Q相对于 P P P称为反向散度(常用于强化学习邻域):
      D K L ( q ∣ ∣ p ) = E q ( log ⁡ ( q p ) ) = ∑ i = 0 n q ( x i ) log ⁡ ( q ( x i ) p ( x i ) ) D_{KL}(q||p) = E_q(\log(\frac{q}{p})) =\sum_{i=0}^n q(x_i) \log(\frac{q(x_i)}{p(x_i)}) DKL(q∣∣p)=Eq(log(pq))=i=0nq(xi)log(p(xi)q(xi))

    • 注意:上述公式,分子是哪个分布,计算KL散度参考的就是哪个分布,比如前向散度中, P P P就是参考分布,也称真实分布,而 Q Q Q就是近似分布,也称理论分布。在计算KL散度时,使用的是基于参考分布中的随机变量,也就是在计算时,我们使用的是参考分布中每个随机变量的概率值,以及近似分布中相应变量的概率值

  • 当分布 Q Q Q和分布 P P P越接近,说明这两个分布越相似,那么 K L KL KL散度值越小。

  • 由于通常情况下, D K L ( p ∣ ∣ q ) D_{KL}(p||q) DKL(p∣∣q) D K L ( q ∣ ∣ p ) D_{KL}(q||p) DKL(q∣∣p)不相等,所以KL散度不满足对称性。同时也不满足三角不等式

交叉熵

  • K L KL KL散度公式变形:
    D K L ( p ∣ ∣ q ) = ∑ i = 0 n p ( x i ) log ⁡ ( p ( x i ) ) − ∑ i = 0 n p ( x i ) log ⁡ ( q ( x i ) ) D_{KL}(p||q) = \sum_{i=0}^np(x_i)\log(p(x_i)) - \sum_{i=0}^np(x_i)\log(q(x_i)) DKL(p∣∣q)=i=0np(xi)log(p(xi))i=0np(xi)log(q(xi))

  • 上面等式中的 − ∑ i = 0 n p ( x i ) log ⁡ ( q ( x i ) ) - \sum_{i=0}^np(x_i)\log(q(x_i)) i=0np(xi)log(q(xi))就是交叉熵 H ( p , q ) H(p,q) H(p,q)

  • P P P的熵为:
    H ( p ) = − ∑ i = 0 n p ( x i ) log ⁡ ( p ( x i ) ) H(p) = -\sum_{i=0}^np(x_i)\log(p(x_i)) H(p)=i=0np(xi)log(p(xi))

  • 如果真实分布 P P P不变,那么 H ( p ) H(p) H(p)就是一个常数,所以在训练模型时,我们只需要关注交叉熵,最小化交叉熵的值。
    H ( p , q ) = − ∑ i = 0 n p ( x i ) log ⁡ ( q ( x i ) ) H(p,q) =- \sum_{i=0}^np(x_i)\log(q(x_i)) H(p,q)=i=0np(xi)log(q(xi))

JS散度

  • JS散度描述的是两个分布的相似程度。

  • 对于概率分布 P P P Q Q Q,js散度的计算公式如下:
    J S ( P ∣ ∣ Q ) = 1 2 D K L ( P ∣ ∣ M ) + 1 2 D K L ( Q ∣ ∣ M ) JS(P||Q) = \frac{1}{2}D_{KL}(P||M) + \frac{1}{2}D_{KL}(Q||M) JS(P∣∣Q)=21DKL(P∣∣M)+21DKL(Q∣∣M)

  • 其中 M M M P P P Q Q Q的平均分布。平均分布的计算过程如下:

    • 对于同一个事件 i i i,假设事件 i i i P P P中发生的概率为 P ( i ) P(i) P(i),在 Q Q Q中发生的概率为 Q ( i ) Q(i) Q(i),那么事件 i i i M M M中发生的概率为:
      M ( i ) = P ( i ) + Q ( i ) 2 M(i) = \frac{P(i) + Q(i)}{2} M(i)=2P(i)+Q(i)

    • 注意:当两个分布不存在重叠部分时,计算它们的平均分布没有意义,因为事件 i i i P P P中发生,在 Q Q Q中却不发生。这里说的重叠是指 P P P Q Q Q的支撑集不相交,简单来说,就是 P P P Q Q Q的随机变量的取值集合没有交集。

  • 如果 P P P Q Q Q的分布不重叠,那么计算得到的JS散度是一个常数。(个人解释如下,不完全正确,仅供参考)

    • 如果 P P P Q Q Q的分布不重叠,根据KL散度的定义可知,在计算KL散度时,会基于参考分布的随机变量来计算,那么由此计算得到的 M M M会是相应分布的 1 2 \frac{1}{2} 21。进而 D K L ( P ∣ ∣ M ) = ∑ i = 0 n P ( x i ) log ⁡ ( P ( x i ) 1 2 P ( x i ) ) = ∑ i = 0 n P ( x i ) log ⁡ ( 2 ) = log ⁡ ( 2 ) ∑ i = 0 n p ( x i ) = log ⁡ 2 D_{KL}(P||M) = \sum_{i=0}^{n}P(x_i)\log(\frac{P(x_i)}{\frac{1}{2}P(x_i)}) = \sum_{i=0}^{n}P(x_i)\log(2) = \log(2) \sum_{i=0}^np(x_i) = \log2 DKL(P∣∣M)=i=0nP(xi)log(21P(xi)P(xi))=i=0nP(xi)log(2)=log(2)i=0np(xi)=log2,同样可以计算 D K L ( Q ∣ ∣ M ) = log ⁡ 2 D_{KL}(Q||M) = \log2 DKL(Q∣∣M)=log2,所以 J S ( P ∣ ∣ Q ) = log ⁡ 2 JS(P||Q) = \log2 JS(P∣∣Q)=log2,所以计算得到的JS散度是一个常数。同理,当 P P P Q Q Q完全重叠时, M M M和两者的分布相同,j计算得到的JS散度为0。
    • 注意:由于 P P P Q Q Q不重叠时,JS散度是一个常数,在使用梯度下降作为优化算法时,通过JS散度得到的梯度为0,对求解最优解没有任何帮助。

Wasserstein距离

  • 当两个分布不重叠时,计算 K L KL KL散度是无意义的,因为在 P P P中出现的事件 i i i,在 Q Q Q中不会出现,即 q ( x i ) = 0 q(x_i) = 0 q(xi)=0,而在计算 K L KL KL散度的公式中, D K L ( p ∣ ∣ q ) = ∑ i = 0 n p ( x i ) log ⁡ ( p ( x i ) q ( x i ) ) D_{KL}(p||q) =\sum_{i=0}^n p(x_i) \log(\frac{p(x_i)}{q(x_i)}) DKL(p∣∣q)=i=0np(xi)log(q(xi)p(xi)) q ( x i ) q(x_i) q(xi)是分母,所以此时 K L KL KL散度无意义。

  • Wasserstein距离用于描述两个分布之间的距离。

  • 分布 P P P Q Q Q的Wasserstein距离定义如下:
    W ( P , Q ) = i n f γ ∼ Γ ( P , Q ) E ( X , Y ) ∼ γ ( ∣ ∣ X − Y ∣ ∣ ) W(P, Q) = inf_{\gamma \sim \Gamma(P, Q) } E_{(X, Y) \sim \gamma}(||X-Y||) W(P,Q)=infγΓ(P,Q)E(X,Y)γ(∣∣XY∣∣)

    • 其中 Γ ( P , Q ) \Gamma(P, Q) Γ(P,Q)表示 P P P Q Q Q所有可能的联合分布集合, γ \gamma γ表示所有可能联邦分布中的一个, ( X , Y ) ∼ γ (X, Y)\sim \gamma (X,Y)γ表示从联合分布中随机采样一个样本 ( X , Y ) (X, Y) (X,Y) ∣ ∣ X − Y ∣ ∣ ||X - Y|| ∣∣XY∣∣表示计算样本 ( X , Y ) (X, Y) (X,Y)的距离, E ( X , Y ) ∼ γ ( ∣ ∣ X − Y ∣ ∣ ) E_{(X, Y)\sim \gamma}(||X-Y||) E(X,Y)γ(∣∣XY∣∣)表示在联合分布为 γ \gamma γ时,样本距离的期望值。整个式子也就是找到一个可能的联合分布 γ \gamma γ,使得这个期望值最小。
    • 如果把分布 P P P Q Q Q看成是土堆 A A A和土堆 B B B,那么Wassersteion距离就是将土堆 A A A,推到土堆 B B B的最少运算成本,也就是将一个分布变换为另一个分布的最小成本

Reference:https://zhuanlan.zhihu.com/p/74075915

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/135827.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

OpenCV图片验证码识别与滑块验证码识别

目录 图片验证码识别: 一、百度OCR文字识别云服务 二、维普网获取图片验证码 三、维普网opencvocr识别验证码 四、维普网selenium登录并获取数据 滑块验证码: 五、猎聘网获取滑块验证码 六、猎聘网opencv计算滑动距离 七、猎聘网selenium模拟滑…

普洱茶上市?澜沧古茶通过港股聆讯

近日,澜沧古茶成功通过港交所聆讯,随后在11月7日披露了相关资料集。该公司即将在港交所主板上市,此次上市由中信建投国际和招商证券国际担任联席保荐人。据了解,澜沧古茶或将成为内地茶企第一股,也将成为“普洱茶第一股…

汽车发动机各系统部件构造图解及名称大全(超详细)

我们都知道发动机是汽车的心脏,相信大家都有东拼西凑的学一些发动机知识,今天汽车维修网小编给大家系统的整理整个发动机的基础知识,如果能认真看完,相信肯定有所收获。全文3065字,81幅结构图,建议收藏、分享后再慢慢看。 首先我们来看一下 发动机总成构造图解 发动机…

带你走进中国十大名校,全面了解学校历史和文化

一、资源描述 本套资源是很不错的,带你实地走进中国十大名校的校园,看看校园内的著名景点和建筑,同时讲解十大名校的历史和文化。这些高校不仅是中国十大名校,可能也是中国排名前十的学校,更是众多学子梦寐以求的&…

【刚体姿态运动学】角速度和欧拉角速率的换算关系的详细推导

0 引言 本文以一种新的角度推导刚体姿态运动学,也即角速度和欧拉角速率之间的换算,不同于相似博文的地方在于,本文旨在从原理上给出直观清晰生动的解释。将详细过程记录于此,便于后续学习科研查找需要。 1 符号 符号含义 { E }…

爱上C语言:操作符详解(上)

🚀 作者:阿辉不一般 🚀 你说呢:生活本来沉闷,但跑起来就有风 🚀 专栏:爱上C语言 🚀作图工具:draw.io(免费开源的作图网站) 如果觉得文章对你有帮助的话,还请…

双通道 H 桥电机驱动芯片AT8833,软硬件兼容替代DRV8833,应用玩具、打印机等应用

上期小编给大家分享了单通道 H 桥电机驱动芯片,现在来讲一讲双通道的驱动芯片。 双通道 H 桥电机驱动芯片能通过控制电机的正反转、速度和停止等功能,实现对电机的精确控制。下面介绍双通道H桥电机驱动芯片的工作原理和特点。 一、工作原理 双通道 H 桥电…

毫米波雷达技术在自动驾驶中的关键作用:安全、精准、无可替代

自动驾驶技术正以前所未有的速度不断演进,而其中的关键之一就是毫米波雷达技术。作为自动驾驶系统中的核心感知器件之一,毫米波雷达在保障车辆安全、实现精准定位和应对复杂环境中发挥着不可替代的作用。本文将深入探讨毫米波雷达技术在自动驾驶中的关键…

基于Springboot的时装购物系统(有报告)。Javaee项目,springboot项目。

演示视频: 基于Springboot的时装购物系统(有报告)。Javaee项目,springboot项目。 前些天发现了一个巨牛的人工智能学习网站,通俗易懂,风趣幽默,忍不住分享一下给大家。点击跳转到网站。 项目介绍…

Ansible自动化部署工具-组件及语法介绍

大家好,我是蓝胖子,我认为自动化运维要做的事情就是把运维过程中的某些步骤流程化,代码化,这样在以后执行类似的操作的时候就可以解放双手了,让程序自动完成。避免出错,Ansible就是这方面非常好用的工具。它…

【性能测试】Linux下Docker安装与docker-compose管理容器(超细整理)

目录:导读 前言一、Python编程入门到精通二、接口自动化项目实战三、Web自动化项目实战四、App自动化项目实战五、一线大厂简历六、测试开发DevOps体系七、常用自动化测试工具八、JMeter性能测试九、总结(尾部小惊喜) 前言 1、Linux下Docker…

Python123:使用函数输出指定范围内的Fibonacci数、使用函数验证哥德巴赫猜想(C语言)

文章目录 1、使用函数输出指定范围内的Fibonacci数2、使用函数验证哥德巴赫猜想 1、使用函数输出指定范围内的Fibonacci数 题目&#xff1a; 本题要求实现一个计算Fibonacci数的简单函数&#xff0c;并利用其实现另一个函数&#xff0c;输出两正整数m和n&#xff08;0<m≤n…

SLAM_语义SLAM相关论文

目录 1. 综述 2. 相关文章 Probabilistic Data Association for Semantic SLAM VSO:Visual Semantic Odometry 语义信息分割运动物体

RuoYi-Vue 在Swagger和Postman中 上传文件测试方案

RequestPart是Spring框架中用于处理multipart/form-data请求中单个部分的注解。在Spring MVC中&#xff0c;当处理文件上传或其他类型的多部分请求时&#xff0c;可以使用RequestPart注解将请求的特定部分绑定到方法参数上。 使用RequestPart注解时&#xff0c;需要指定要绑定…

iOS使用NSURLSession实现后台上传下载

NSURLSession后台上传的基本逻辑是&#xff1a;首先创建一个后台模式的NSURLSessionConfiguration&#xff0c;然后通过这个configuration创建一个NSURLSession&#xff0c;接着是创建相关的NSURLSessionTask&#xff0c;最后就是处理相关的代理事件。 1、创建NSURLSession -…

asp.net水资源检测系统VS开发sqlserver数据库web结构c#编程Microsoft Visual Studio

一、源码特点 asp.net 水资源检测系统是一套完善的web设计管理系统&#xff0c;系统具有完整的源代码和数据库&#xff0c;系统主要采用B/S模式开发。开发环境为vs2010&#xff0c;数据库为sqlserver2008&#xff0c;使用c#语言开 发 ASP.NET水资源检测系统1 (1) 应用技…

易点易动固定资产管理系统:定制流程与用量控制的高效库存管理利器

对于企业来说&#xff0c;有效的库存管理是保证供应链运作顺畅、降低成本和提高客户满意度的关键要素。易点易动固定资产管理系统凭借其自定义库存管理流程和库存用量控制功能&#xff0c;成为了提升库存管理效率的利器。本文将详细介绍易点易动固定资产管理系统的自定义流程和…

基于SSM框架的共享单车管理系统小程序系统的设计和实现

基于SSM框架的共享单车管理系统小程序系统的设计和实现 源码传送入口前言主要技术系统设计功能截图Lun文目录订阅经典源码专栏Java项目精品实战案例《500套》 源码获取 源码传送入口 前言 随着科学技术的飞速发展&#xff0c;各行各业都在努力与现代先进技术接轨&#xff0c;…

腾讯云16核服务器配置有哪些?CPU型号处理器主频性能

腾讯云16核服务器配置大全&#xff0c;CVM云服务器可选择标准型S6、标准型SA3、计算型C6或标准型S5等&#xff0c;目前标准型S5云服务器有优惠活动&#xff0c;性价比高&#xff0c;计算型C6云服务器16核性能更高&#xff0c;轻量16核32G28M带宽优惠价3468元15个月&#xff0c;…

acwing算法基础之搜索与图论--BFS

目录 1 基础知识2 模板3 工程化 1 基础知识 BFS可以用来求取最短路&#xff0c;前提条件是所有边的权重一样。 2 模板 题目1&#xff1a;走迷宫&#xff0c;从左上角走到右下角&#xff0c;求最短路。 #include <iostream> #include <queue> #include <cstr…