信息量、香农熵、交叉熵、KL散度的意义

文章目录

  • 1. 信息量
  • 2. 香农熵
  • 3. 交叉熵
  • 4. KL散度(Kullback-Leibler Divergence(Relative Entropy))


1. 信息量

相关概念:

对于一个事件:

  • 小概率 – > 大的信息量
  • 大概率 – > 小的信息量
  • 多个独立事件的信息量计算可以直接相加

表达公式:

信息量的计算公式:

I ( x ) = l o g 2 ( 1 p ( x ) ) = − l o g 2 ( p ( x ) ) \begin{aligned} &I(x)=log_2(\frac{1}{p(x)})=-log_2(p(x)) \end{aligned} I(x)=log2(p(x)1)=log2(p(x))

举例:

①均匀的硬币

事件概率信息量
正面 p ( h ) = 0.5 p(h)=0.5 p(h)=0.5 I p ( h ) = l o g 2 ( 1 0.5 ) = 1 I_p(h)=log_2(\frac{1}{0.5})=1 Ip(h)=log2(0.51)=1
反面 p ( t ) = 0.5 p(t)=0.5 p(t)=0.5 I p ( t ) = l o g 2 ( 1 0.5 ) = 1 I_p(t)=log_2(\frac{1}{0.5})=1 Ip(t)=log2(0.51)=1

②不均匀的硬币

事件概率信息量
正面 q ( h ) = 0.2 q(h)=0.2 q(h)=0.2 I q ( h ) = l o g 2 ( 1 0.2 ) = 2.32 I_q(h)=log_2(\frac{1}{0.2})=2.32 Iq(h)=log2(0.21)=2.32
反面 q ( t ) = 0.8 q(t)=0.8 q(t)=0.8 I q ( t ) = l o g 2 ( 1 0.8 ) = 0.32 I_q(t)=log_2(\frac{1}{0.8})=0.32 Iq(t)=log2(0.81)=0.32

2. 香农熵

熵的概念:服从某一概率分布的平均信息量(期望),也是一种不确定度的计算方式。

香农熵的计算公式:

H ( p ) = ∑ p i I i p = ∑ p i l o g 2 ( 1 p i ) = − ∑ p i l o g 2 ( p i ) \begin{aligned} &H(p)=\sum{p_iI_i^p}=\sum {p_ilog_2(\frac{1}{p_i})=-\sum {p_ilog_2(p_i)}} \end{aligned} H(p)=piIip=pilog2(pi1)=pilog2(pi)

举例:

①均匀的硬币 p ( h ) = 0.5 p(h)=0.5 p(h)=0.5, p ( t ) = 0.5 p(t)=0.5 p(t)=0.5

H ( p ) = p ( h ) l o g 2 1 p ( h ) + p ( t ) l o g 2 1 p ( t ) = 0.5 × 1 + 0.5 × 1 = 1 H(p)=p(h)log_2{\frac{1}{p(h)}}+p(t)log_2{\frac{1}{p(t)}} = 0.5×1+0.5×1=1 H(p)=p(h)log2p(h)1+p(t)log2p(t)1=0.5×1+0.5×1=1

②不均匀的硬币 q ( h ) = 0.2 q(h)=0.2 q(h)=0.2, q ( t ) = 0.8 q(t)=0.8 q(t)=0.8

H ( p ) = q ( h ) l o g 2 1 q ( h ) + q ( t ) l o g 2 1 q ( t ) = 0.2 × 2.32 + 0.8 × 0.32 = 0.72 H(p)=q(h)log_2{\frac{1}{q(h)}}+q(t)log_2{\frac{1}{q(t)}} = 0.2×2.32+0.8×0.32=0.72 H(p)=q(h)log2q(h)1+q(t)log2q(t)1=0.2×2.32+0.8×0.32=0.72

- -总结- -
对于一个概率分布:

  • 概率分布越平均 – > 越随机 – > 熵越大
  • 概率分布越聚拢 – > 越确定 – > 熵越小

3. 交叉熵

还是用上面的例子

一个均匀硬币:
    真实概率(ground truth probability): p ( h ) = 0.5 , p ( t ) = 0.5 p(h)=0.5,\ p(t)=0.5 p(h)=0.5, p(t)=0.5
    估计概率(estimated probability): q ( h ) = 0.2 , q ( t ) = 0.8 \ \ q(h)=0.2,\ q(t)=0.8   q(h)=0.2, q(t)=0.8

给定估计概率分布 q q q,其真实概率分布 p p p的信息量的均值(期望)的估算如下:

H ( p , q ) = ∑ p i I i q = ∑ p i l o g 2 ( 1 q i ) = − ∑ p i l o g 2 ( q i ) \begin{aligned} &H(p,q)=\sum{p_iI_i^q}=\sum {p_ilog_2(\frac{1}{q_i})=-\sum {p_ilog_2(q_i)}} \end{aligned} H(p,q)=piIiq=pilog2(qi1)=pilog2(qi)

  • 使用期望 H ( p , q ) H(p,q) H(p,q)代替真实概率分布 p p p,因为数据根据真实概率分布出现
  • 使用估计的概率分布 q q q来量化信息量 H ( p , q ) H(p,q) H(p,q)

解释:
    在数据分布总是符合真实概率分布的情况下,期望值取代真实概率分布意味着我们在使用期望值来进行预测或计算,而不是直接使用真实的概率分布。这种情况在许多实际应用中非常常见,因为真实概率分布通常是未知的,我们只能基于观测数据进行估计。

根据交叉熵的计算公式,我通过举例两种情况来说明交叉熵的意义:

    假如 q ( h ) = 0.2 , q ( t ) = 0.8 \ q(h)=0.2,\ q(t)=0.8  q(h)=0.2, q(t)=0.8,它与真实概率分布 p ( h ) = 0.5 , p ( t ) = 0.5 p(h)=0.5,\ p(t)=0.5 p(h)=0.5, p(t)=0.5,相差较大。计算交叉熵:

H ( p , q ) = p ( h ) l o g 2 1 q ( h ) + p ( t ) l o g 2 1 q ( t ) = 0.5 × 2.32 + 0.5 × 0.32 = 1.32 \begin{aligned} H(p,q)=p(h)log_2{\frac{1}{q(h)}}+p(t)log_2{\frac{1}{q(t)}} = 0.5×2.32+0.5×0.32=1.32 \end{aligned} H(p,q)=p(h)log2q(h)1+p(t)log2q(t)1=0.5×2.32+0.5×0.32=1.32

    假如 q ( h ) = 0.4 , q ( t ) = 0.6 \ q(h)=0.4,\ q(t)=0.6  q(h)=0.4, q(t)=0.6,它与真实概率分布 p ( h ) = 0.5 , p ( t ) = 0.5 p(h)=0.5,\ p(t)=0.5 p(h)=0.5, p(t)=0.5,相差较小。计算交叉熵:

H ( p , q ) = p ( h ) l o g 2 1 q ( h ) + p ( t ) l o g 2 1 q ( t ) = 0.5 × 1.32 + 0.5 × 0.74 = 1.03 \begin{aligned} H(p,q)=p(h)log_2{\frac{1}{q(h)}}+p(t)log_2{\frac{1}{q(t)}} = 0.5×1.32+0.5×0.74=1.03 \end{aligned} H(p,q)=p(h)log2q(h)1+p(t)log2q(t)1=0.5×1.32+0.5×0.74=1.03

其中,1.03相比于1.32更接近1。从上面两种情况可以得出,估计概率与真实概率相差越大,其交叉熵越偏离真实的 H ( p ) ( = 1 ) H(p)(=1) H(p)(=1)

4. KL散度(Kullback-Leibler Divergence(Relative Entropy))

概念:一种计算两种不同概率分布的差距的量化方式,比如交叉熵和熵。

D ( p ∣ ∣ q ) = H ( p , q ) − H ( p ) = ∑ p i I i q − ∑ p i I i p = ∑ p i l o g 2 ( 1 q i ) − ∑ p i l o g 2 ( 1 p i ) = ∑ p i l o g 2 ( p i q i ) \begin{aligned} D(p||q)&=H(p,q)-H(p) \\ &=\sum{p_iI_i^q}-\sum{p_iI_i^p} \\ &=\sum{p_ilog_2{(\frac{1}{q_i}})} - \sum{p_ilog_2{(\frac{1}{p_i}})} \\ & =\sum{p_ilog_2{(\frac{p_i}{q_i}})} \\ \end{aligned} D(p∣∣q)=H(p,q)H(p)=piIiqpiIip=pilog2(qi1)pilog2(pi1)=pilog2(qipi)

  • D ( p ∣ ∣ q ) ≥ 0 D(p||q)≥0 D(p∣∣q)0,当且仅当两个分布相同时, D ( p ∣ ∣ q ) = 0 D(p||q)=0 D(p∣∣q)=0

  • D ( p ∣ ∣ q ) ≠ D ( q ∣ ∣ p ) D(p||q)≠D(q||p) D(p∣∣q)=D(q∣∣p),即不是一种距离度量;

  • 有时,最小化KL散度等价于最小化交叉熵 ,例如, ∇ θ D ( p ∣ ∣ q θ ) = ∇ θ H ( p , q θ ) − ∇ θ H ( p ) = ∇ θ H ( p , q θ ) \nabla_\theta D(p||q_\theta)=\nabla_\theta H(p,q_\theta)-\nabla_\theta H(p)=\nabla_\theta H(p,q_\theta) θD(p∣∣qθ)=θH(p,qθ)θH(p)=θH(p,qθ)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/855657.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

开关阀(1):定位器与电磁阀的区别

气动阀门带电磁阀是控制气源开关的,如果装配阀门定位器即为调节型? 一般来说,电磁阀就是控制气源通断的,用于阀门快速的全开或全关,电磁阀是得电与失电是起开关作用。 定位器是控制气源压力的大小,控制阀门…

数据结构---二叉树的性质总结

第i层上的节点数 证明: 二叉树的最大节点数 证明: 第一层对应2^0个节点, 累加得到 这是一个等比数列 求和公式: 那么这里的n指的是一共有多少个相加 根据从b到a一共有b-a1个可推出 有(k-1)-01个相加 那么结果为: 叶节点与度为2的节点关系 证明: 假设二叉树的总节点数为 NNN…

解决动态权限路由页面刷新空白404

需要将任意路由 path: /:pathMatch(.*)* 从固定路由中提取出来,在刷新时,等待用户信息获取完毕,将动态路由和任意路由通过 router.addRoute() 重新添加到路由中 // 固定路由 export const constantRoute [ ... ]// 权限路由 export const …

主键的定义,理解

"主键"是数据库中的一个术语,用于标识数据库表中的每一条记录的唯一标识。主键的特点如下: 唯一性:每个表中的主键值必须是唯一的,这样每条记录都能被准确地识别和检索。不可更改性:一旦定义,主…

常数变易法求解非齐次线性微分方程

文章目录 常数变易法求解一阶非齐次线性微分方程常数变易法求解二阶非齐次线性微分方程例题 常数变易法求解一阶非齐次线性微分方程 对于一阶非齐次线性微分方程 y ′ p ( x ) y q ( x ) y p(x)y q(x) y′p(x)yq(x) 先用分离变量法求解对应的齐次方程 y ′ p ( x ) y 0…

SpelExpressionParser评估SpEL(Spring Expression Language)表达式的解析器

是Spring中用于解析和评估SpEL(Spring Expression Language)表达式的解析器,SpEL是一种强大且灵活的表达式语言,广泛用于Spring框架中,以便在运行时解析和评估表达式 主要功能 1.解析和评估表达式:spelExpressionParser可以解析复杂的表达式,并在运行时对其进行评估; 2.访问…

Linux时间子系统7:sleep timer接口定时实现

1、前言 之前的文章中介绍了Linux时间相关的内容,包括用户态/内核态的时间获取,时间的种类,时钟源等,本篇开始的后续几篇文章将介绍Linux系统关于定时相关的服务,这与之前的内容是高度相关的,本篇还是从应用…

SolidWorks科研版更快地开发产品创意

在当今竞争激烈的市场环境中,产品创新的速度和质量直接决定了企业的生死存亡。对于科研人员和设计师来说,如何能够快速、准确地实现产品创意的转化,是摆在面前的一大挑战。SolidWorks科研版作为一款功能强大的三维设计软件,为科研…

正则表达式之三剑客grep

正则表达式匹配的是文本内容,linux的文本三剑客 都是针对文本内容 grep 过滤文本内容 sed 针对文本内容进行增删改查 awk 按行取列 文本三剑客都是按行进行匹配。 grep grep 的作用就是使用正则表达式来匹配文本内容 选项: -m …

centos查找文件 写入的进程

du -sh * 查看目录空间占用、发现大文件,确定进程,结束 yum install lsof 安装lsof 查看文件写入的 进程 2. lsof /root/.influxdbv2/engine/data/bab49411e5f7cbce/autogen/1/000000036-000000002.tsm COMMAND PID USER FD TYPE …

Ubuntu-基础工具配置

基础工具配置 点击左下角 在弹出界面中点击 以下命令都是在上面这个界面执行(请大家注意空格) 命令输入完后,回车键就是执行,系统会提示输入密码(就是你登录的密码) 1.安装net工具 :(ifconfi…

vue3-自定义指令来实现input框输入限制

文章目录 前言具体实现分析主要部分详细解析导入和类型定义mounted 钩子函数unmounted 钩子函数指令注册使用 总结 前言 使用vue中的自定义指令来实现input框输入限制 其中关键代码强制触发input ,来避免,输入规则外的字符时,没触发vue的响…

无需安装就能一键部署Stable Diffusion 3?

一键部署使用SD3?让你的创作更加便捷! 前言 厚德云上架SD3! 距离Stable Diffusion 3的上线已经有一阵时间了。从上线至今SD3也是一直好评不断,各项性能的提升也让它荣获“最强开源新模型”的称号。成为了AI绘画设计师们新的香馍馍。 可对于SD…

短期内股票跌了就难受的人有哪些?

短期内股票跌了难受的人,主要是四类 第一类压根就没有打算长期持有,就是玩短线的。这类人来股市是为了一夜暴富的。 第二类人,这类人也是打算一夜暴富的,但是他们会上杠杆,借钱买股票。股价涨了好说,股价…

python网站地图解析

分析: ⽹站的地图(sitemap.xml)是⼀个XML⽂件,列出了⽹站上所有可访问的⻚⾯的URL。解析⽹站的地图可以⾼效地发现⽹站上所有的⻚⾯,特别是那些可能不容易通过常规爬⾍发现的⻚⾯。 # Python代码: 以下是⼀…

Mac用虚拟机玩游戏很卡 Mac电脑玩游戏怎么流畅运行 苹果电脑怎么畅玩Windows游戏

对于许多Mac电脑用户而言,他们经常面临一个令人头疼的问题:在虚拟机中玩游戏时卡顿严重,影响了游戏体验。下面我们将介绍Mac用虚拟机玩游戏很卡,Mac电脑玩游戏怎么流畅运行的相关内容。 一、Mac用虚拟机玩游戏很卡 下面我们来看…

嵌入式期末复习--补充(答案来自文心一言)

一、第一章 1、常见的RTOS,嵌入式操作系统的特点 RTOS就是实时操作系统。根据响应时间的不同,可分为以下3类: (1)强实时嵌入式操作系统 响应时间:微妙或毫秒 (2)一般实时…

删除重复文件如何操作?电脑重复文件删除教程分享:详细!高效!

在数字化时代,我们的电脑中往往存储着大量的文件,这些文件随着时间的推移可能会产生许多重复项。重复文件不仅占用了宝贵的硬盘空间,还可能导致文件管理的混乱。因此,定期删除重复文件是维护电脑健康和提高工作效率的重要步骤。本…

请问为什么下面的HTML代码没有显示内容?

请问下面的HTML程序为什么没有显示内容&#xff1f; <!DOCTYPE html> <html> <head> <meta charset"utf-8"> <title>HTML教程()</title> <script>function getTime() {var date new Date();var time date.toLocalString…

OSPF和RIP的路由引入(华为)

#交换设备 OSPF和RIP的路由引入 不同的网络会根据自身的实际情况来选用路由协议。比如有些网络规模很小&#xff0c;为了管理简单&#xff0c;部署了 RIP; 而有些网络很复杂&#xff0c;可以部署 OSPF。不同路由协议之间不能直接共享各自的路由信息&#xff0c;需要依靠配置路…