信息量、香农熵、交叉熵、KL散度总结

信息量

对于一个事件而言,它一般具有三个特征:

  • 小概率事件往往具有较大的信息量

  • 大概率事件往往具有较小的信息量

  • 独立事件的信息量相互可以相加

比如我们在买彩票这个事件中,彩票未中奖的概率往往很高,对我们而言一点也不稀奇,给我们带来的信息量很小,彩票中大奖的概率往往非常低,中一次大奖则是非常罕见,给我们带来的信息量很大。

如何描述信息量大小呢?有如下定义:

其中p(x)描述某一事件发生的概率,1/p(x)反映了信息量与发生概率之间成反比,取对数是为了 独立事件的信息量相互可以相加(第三个特征)。

有如下例子:

抛一枚硬币,根据正面朝上和反面朝上的概率计算其信息量

其中,当正反概率相等时,信息量对等;当正反概率不等时,概率越小的事件其信息量越大。

当我们对信息量这一概念有一个初步理解后,我们继续往下看关于熵的定义

 香农熵(Shannon Entropy)

熵:针对一个概率分布所包含的平均信息量

相当于计算一个概率分布中信息量的期望

由于熵这一概念是由科学家香农所提出,故熵又被称作香农熵(注意这里的熵与物理学中的熵不是同一个意思)。

 对于离散的概率分布,计算香农熵的公式如下所示:

 对于连续的概率分布,计算香农熵的公式如下所示: 

以离散的概率分布为例,我们可以看到,计算香农熵就是将每个事件的概率乘以其对应的信息量并进行向加求得。

我们同样回到抛硬币的例子:

计算每种情况的香农熵

 通过以上例子我们不难发现:

在一个概率分布中,当概率密度函数分布比较均匀的时候,随机事件发生的情况变得更加不确定,相应地,对应的熵更大;当概率密度函数分布比较聚拢的时候,随机事件发生的情况变得更加确定,相应地,对应的熵更小。

现在我们对熵的概念也有了一个基本的了解,我们继续往下看交叉熵。

交叉熵(Cross Entropy)

我们先不急着看概念,我们先看一个例子,同样是抛硬币的例子:

如果我们事先并不知道每个事件真实的概率p,我们可以先对其进行估计q,并计算在q下的信息量I,那我们可以计算在真实概率分布p下的平均信息量的估计,这个估计就称作交叉熵。

我们看一下交叉熵的公式(离散概率分布):

连续概率分布交叉熵计算公式如下:

我们利用估计的信息量I^q_i计算在真实概率下P的熵便称为交叉熵。

根据上面的公式,我们计算一下在不同估计下的交叉熵:

从中我们可以发现,在不同估计下计算的交叉熵要大于香农熵(可以看下在之前在计算不同概率分布下的香农熵)。这是为什么呢?我们接着往下看。

KL散度(Kullback-Leibler Diergence)

一种定量衡量两个概率分布之间差异的方法:交叉熵与熵之间的差异。

如果理解了之前的熵和交叉熵,KL散度的定义也相对容易理解。

离散概率分布下的KL散度的计算公式如下:

连续概率分布下的KL散度的计算公式如下:

直观理解KL散度,可以看作在Q表示P所损失的信息量,KL 散度越大,说明 P和 Q的差异越大

KL散度有如下性质:

KL散度永远大于等于0 ,可通过吉布斯不等式证明。

这也就说明了为什么在不同估计下计算的交叉熵要大于等于香农熵,只有当p和q相等时,交叉熵才等于香农熵。

p和q交换后得出的KL散度不相等,因此KL散度不能看作距离,但可以用来优化模型

在机器学习中,如果想要优化一个模型,KL散度是一个重要的衡量标准,可通过最小化KL散度使模型最优。其中,在优化过程中,我们对其q进行梯度优化,由于p与q无关,故为0,最终梯度优化公式如下:

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/902090.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

使用C语言的cJSON中给JSON字符串添加转义

在 cJSON 库中,没有直接提供 一个函数来专门给 JSON 字符串添加转义(如将 " 转义为 \",\n 转义为 \\n 等)。 但 cJSON 在 序列化(cJSON_Print 或 cJSON_PrintUnformatted) 时会自动处理转义字符…

宇树机器狗go2—slam建图(1)点云格式

0.前言 上一篇番外文章教大家如何在宇树机器狗go2的gazebo仿真环境中实现简单的导航运动,本期文章会教大家如何让宇树的机器狗go2在仿真环境中进行slam建图时经常会遇到的一些点云格式,在后续的slam建图和slam算法解析的时候会经常与这些点云信息打交道…

linux socket编程之udp(实现客户端和服务端消息的发送和接收)

目录 一.创建socket套接字(服务器端) 二.bind将prot与端口号进行绑定(服务器端) 2.1填充sockaddr_in结构 2.2bind绑定端口 三.直接通信(服务器端) 3.1接收客户端发送的消息 3.2给客户端发送消息 四.客户端通信 4.1创建socket套接字 4.2客户端bind问题 4.3直接通信即可…

第1期:Python基础语法入门

1.1 Python简介 Python是一种解释型、面向对象、动态数据类型的高级编程语言。它设计简洁,易于学习,适合初学者。Python广泛应用于数据科学、人工智能、Web开发、自动化脚本等领域。它的语法简洁易懂,强调代码的可读性。 1.2 安装Python与配…

使用EXCEL绘制平滑曲线

播主播主,你都多少天没更新了!!!泥在干什么?你还做这个账号麻?!!! 做的做的(哭唧唧),就是最近有些忙,以及…… 前言&…

当算力遇上马拉松:一场科技与肉身的极限碰撞

目录 一、从"肉身苦修"到"科技修仙" 二、马拉松的"新大陆战争" 三、肉身会被算法"优化"吗? 马拉松的下一站是"人机共生"时代 当AI能预测你的马拉松成绩,算法能规划最佳补给方案,智能装备让训练效率翻倍——你还会用传…

MLLMs for TSAD ?

项目链接:Multimodal LLMs Advance Time Series Analysis 代码链接:https://github.com/mllm-ts/VisualTimeAnomaly 出处:ICLR 2025 一 文章动机 多模态 LLM (MLLM) 通过 “视觉” 方式处理时序的潜力仍未充分探索; 人类检测 “时序异常” 的自然方式:可视化、文本描…

开发基于python的商品推荐系统,前端框架和后端框架的选择比较

开发一个基于Python的商品推荐系统时,前端和后端框架的选择需要综合考虑项目需求、开发效率、团队熟悉度以及系统的可扩展性等因素。 以下是一些推荐的框架和建议: 后端框架 Flask 优点: 轻量级:Flask的核心非常简洁,…

chili3d调试笔记2+添加web ui按钮

onclick 查找 打个断点看看 挺可疑的,打个断点看看 挺可疑的,打个断点看看 打到事件监听上了 加ui了 加入成功 新建弹窗-------------------------------------- 可以模仿这个文件,写弹窗 然后在这里注册一下,外部就能调用了 对了…

【重学Android】1.关于@Composer注解的一点知识笔记

最新因为一些原因,开始重新学习Android及kotlin编程,也觉得可以顺带记录下这个过程中的一些知识点,也可以用作日后自己查找复习。 Composable 注解在 Android 开发中的使用 Composable 是 Jetpack Compose(Android 的现代声明式…

qt+mingw64+cmake+libqrencode项目编译和搭建成功记录

最近要使用高拍仪拍照获取照片,然后识别照片中的二维码数据、使用QZxing只能识别出一个条码、另外一个条码准备测试用其他的开源项目(如libqrencode-4.1.1)来进行测试,故进行本文的项目环境搭建测试,最后成功。 本机开…

【今日三题】判断是不是平衡二叉树(递归) / 最大子矩阵(二维前缀和) / 小葱的01串(滑动窗口)

⭐️个人主页:小羊 ⭐️所属专栏:每日两三题 很荣幸您能阅读我的文章,诚请评论指点,欢迎欢迎 ~ 目录 判断是不是平衡二叉树(递归)最大子矩阵(二维前缀和)小葱的01串(滑动窗口) 判断是不是平衡二叉树(递归) 判断是不是平衡二叉…

【Linux】线程ID、线程管理、与线程互斥

📚 博主的专栏 🐧 Linux | 🖥️ C | 📊 数据结构 | 💡C 算法 | 🌐 C 语言 上篇文章: 【Linux】线程:从原理到实战,全面掌握多线程编程!-CSDN博客 下…

定制一款国密浏览器(10):移植SM2算法前,解决错误码的定义问题

上一章中,我给大家介绍了 SM4 在 BoringSSL 上的移植要点,本来计划本章介绍 SM2 算法的移植要点。在移植 SM2 过程中,遇到了一个拦路虎,所以先扫除这个拦路虎,这就是错误码的定义问题。 在铜锁中,引入了几个错误码和错误字符串,在文件 sm2_err.c 中: static const ER…

JDOM处理XML:Java程序员的“乐高积木2.0版“

各位代码建筑师们!今天我们要玩一款比原生DOM更"Java友好"的XML积木套装——JDOM!它像乐高得宝系列(Duplo)一样简单易用,却能让你的XML工程稳如霍格沃茨城堡!(温馨提示:别…

【后端开发】Spring日志

文章目录 Spring日志日志作用日志测试日志信息日志级别日志配置配置日志级别日志持久化日志文件分割 注解的使用 Spring日志 日志作用 系统监控:可以通过日志记录这个系统的运行状态,对数据进行分析,设置不同的规则,超过阈值时进…

探索大语言模型(LLM):Transformer 与 BERT从原理到实践

Transformer 与 BERT:从原理到实践 前言一、背景介绍二、核心公式推导1. 注意力机制(Attention Mechanism)2. 多头注意力机制(Multi-Head Attention)3. Transformer 编码器(Transformer Encoder&#xff09…

计算机网络八股——HTTP协议与HTTPS协议

目录 HTTP1.1简述与特性 1. 报文清晰易读 2. 灵活和易于扩展 3. ⽆状态 Cookie和Session 4. 明⽂传输、不安全 HTTP协议发展过程 HTTP/1.1的不足 HTTP/2.0 HTTP/3.0 HTTPS协议 HTTP协议和HTTPS协议的区别 HTTPS中的加密方式 HTTPS中建立连接的方式 前言&#xff…

QML中的3D功能--入门开发

Qt Quick 提供了强大的 3D 功能支持,主要通过 Qt 3D 模块实现。以下是 QML 中开发 3D 应用的全面指南。 1. 基本配置 环境要求 Qt 5.10 或更高版本(推荐 Qt 6.x) 启用 Qt 3D 模块 支持 OpenGL 的硬件 项目配置 在 .pro 文件中添加: QT += 3dcore 3drender 3dinput 3dex…

Git合并分支的两种常用方式`git merge`和`git cherry-pick`

Git合并分支的两种常用方式git merge和git cherry-pick 写在前面1. git merge用途工作方式使用git命令方式合并使用idea工具方式合并 2. git cherry-pick用途工作方式使用git命令方式合并使用idea工具方式合并 3. 区别总结 写在前面 一般我们使用git合并分支常用的就是git mer…