一张图文深入了解信息量概念

  • 通信原理第10页最后一段:
    概率论告诉我们,事件的不确定程度可以用其出现的概率来描述。因此,消息中包含的信息量与消息发生的概率密切相关。消息出现的概率越小,则消息中包含的信息量就越大。

  • 这句话怎么理解呢?

  • 比如,一个方框代表一条消息,假设内部每个小球的出现概率相同
    (1)第一个方框每种颜色的小球出现的概率是1/6,共有6个小球
    (2)第二个方框每种颜色的小球出现的概率1/n(n→ ∞ \infty ),共有n个小球
    即:概率越小,能包含的小球就越多,该结论仅解释概率与信息量的关系
    在这里插入图片描述

  • 通信原理第11页开头:
    I I I(信息量)与 P ( x ) P(x) P(x)(消息发生概率)之间的关系应当反映如下规律:
    (1)消息中所含的信息量是该消息出现的概率的函数,即
    I = I [ P ( x ) ] I=I[P(x)] I=I[P(x)]
    (2) P ( x ) P(x) P(x)越小, I I I越大;反之, I I I越小;且当 P ( x ) = 1 P(x)=1 P(x)=1时, I = 0 I=0 I=0 P ( x ) = 0 P(x)=0 P(x)=0时, I = ∞ I=\infty I=
    (3)若干个互相独立事件构成的消息,所含信息量等于各独立事件信息量之和,也就是说,信息具有相加性,即
    I [ P ( x 1 ) P ( x 2 ) ⋯ ] = I [ P ( x 1 ) ] + I [ P ( x 2 ) ] + ⋯ I[P(x_1)P(x_2)\cdots]=I[P(x_1)]+I[P(x_2)]+\cdots I[P(x1)P(x2)]=I[P(x1)]+I[P(x2)]+
    不难看出,若 I I I P ( x ) P(x) P(x)之间的关系式为
    I = log ⁡ a 1 P ( x ) = − log ⁡ a P ( x ) I = \log_a\frac{1}{P(x)}=-\log_aP(x) I=logaP(x)1=logaP(x)

  • 满足上述三个条件的简单函数,仅 log ⁡ \log log函数,以 y = log ⁡ 2 a y=\log_2a y=log2a函数为例,假设 a = 1 P ( x ) a=\frac{1}{P(x)} a=P(x)1
    P ( x ) P(x) P(x)概率增大, a a a就越小,y就越大
    P ( x ) P(x) P(x)概率减小, a a a就越大,y就越小
    P ( x ) = 1 P(x)=1 P(x)=1 a = 1 a=1 a=1,则 y = 0 y=0 y=0
    P ( x ) → 0 P(x)→0 P(x)0 a → ∞ a→\infty a,则 y → ∞ y→\infty y
    符合上述三条规律
    在这里插入图片描述

  • 通信原理第11页中间:

    通常广泛使用的单位为比特,这时有
    I = log ⁡ 2 1 P ( x ) = − log ⁡ 2 P ( x ) ( b ) I=\log_2\frac{1}{P(x)}=-\log_2P(x)\qquad(b) I=log2P(x)1=log2P(x)(b)

    这个公式暂时先死记,二进制传输系统中度量信息量的公式就是这小子了
    -为什么用比特, log ⁡ \log log函数的底数就是2呢?最后解答

  • 通信原理第11页【例1-1】:
    这里就不贴原文了,以下内容,详细解释信息量是什么东西,个人觉得还是从多进制开始涉入才理解深刻

  • 图中一个方框就代表一个码元,一条消息有n个码元,而这一个码元可能会发生4种事件,即4个值,二进制传输系统中,最小传输单元仅用高低电平表示0或1,这里方框内的圆圈就是最小传输单元,只能表示0或者1
    那么一个码元需要表示4个值,就需要两个最小传输单元

  • 视角转到电平信号,假设一条消息只有一个码元,而这一个码元需要表示为4个值,就需要两个bit,而这两个bit就是信息量,也就是一个码元内,需要多少个bit来表示出所有的值,而信息量的单元就是比特
    在这里插入图片描述

  • 再比如,一个码元需要表示0至7的整数,每个整数等概出现,就需要3bit来表示,那么它的信息量就是3bit

  • 前面都是再以2的幂来举例的,这次来个非2的幂的数
    比如说,一个码元需要表示0-9的整数,每个整数等概出现,即 P ( x ) = 1 10 P(x)=\frac{1}{10} P(x)=101,根据公式(1.4-2)得
    I = − log ⁡ 2 P ( x ) = − log ⁡ 2 1 10 ≈ 3.321928 ( b i t ) I=-\log_2P(x)=-\log_2\frac{1}{10}\approx3.321928(bit) I=log2P(x)=log21013.321928(bit)
    也就是说一个码元需要约3.321928个bit才能表示0-9的整数

  • 特别的,当一个码元仅需要表示两个数值0或1时,一个码元就只需要一个bit就可以表示2个数值了,这种情况下,一个码元就是一个bit,4进制一个码元有2bit,8进制一个码元有3bit,10进制一个码元约有3.321928个bit…

  • 通信原理第12页开头:

  • 上述是在每个事件等概出现的情况下,探讨的,下面来讨论各事件非等概的情况下,怎么计算信息量(一个码元需要多少个bit才能表示所有数值)
    设离散信源是一个由 M M M个符号组成的集合,其中每个符号 x i ( i = 1 , 2 , 3 , . . . , M ) x_i(i=1,2,3,...,M) xi(i=1,2,3,...,M)按照一定的概率 P ( x i ) P(x_i) P(xi)独立出现,即
    [ x 1 , x 2 , ⋯ , x M P ( x 1 ) , P ( x 2 ) , ⋯ , P ( x M ) ] , 且 ∑ i = 1 M P ( x i ) = 1 \begin{bmatrix} x_1, & x_2, &\cdots, & x_M \\ P(x_1), &P(x_2), &\cdots, & P(x_M) \end{bmatrix} ,且\sum_{i=1}^{M}P(x_i)=1 [x1,P(x1),x2,P(x2),,,xMP(xM)],i=1MP(xi)=1
    x 1 , x 2 , ⋯ , x M x_1,x_2,\cdots,x_M x1,x2,,xM所包含的信息量分别为
    − log ⁡ 2 P ( x 1 ) , − log ⁡ 2 P ( x 2 ) , ⋯ , − log ⁡ 2 P ( x M ) -\log_2P(x_1),-\log_2P(x_2),\cdots,-\log_2P(x_M) log2P(x1),log2P(x2),,log2P(xM)
    于是,每个符号所含信息量的统计平均值,即平均信息量为
    H ( x ) = P ( x 1 ) [ − log ⁡ 2 P ( x 1 ) ] + P ( x 2 ) [ − log ⁡ 2 P ( x 2 ) ] + ⋯ + P ( x M ) [ − log ⁡ 2 P ( x M ) ] = − ∑ i = 1 M P ( x i ) [ log ⁡ 2 P ( x i ) ] \begin{aligned} H(x)&=P(x_1)[-\log_2P(x_1)]+P(x_2)[-\log_2P(x_2)]+\cdots+P(x_M)[-\log_2P(x_M)]\\ &=-\sum_{i=1}^MP(x_i)[\log_2P(x_i)] \end{aligned} H(x)=P(x1)[log2P(x1)]+P(x2)[log2P(x2)]++P(xM)[log2P(xM)]=i=1MP(xi)[log2P(xi)]

  • 这里先以等概举例,比如4进制,0-3的每个数值等概出现,即1/4,那么平均信息量就等于
    H ( x ) = − ∑ i = 1 M P ( x i ) [ log ⁡ 2 P ( x i ) ] = 1 4 ( − log ⁡ 2 1 4 ) + 1 4 ( − log ⁡ 2 1 4 ) + 1 4 ( − log ⁡ 2 1 4 ) + 1 4 ( − log ⁡ 2 1 4 ) = 2 ( b i t ) \begin{aligned} H(x)&=-\sum_{i=1}^MP(x_i)[\log_2P(x_i)]\\ &=\frac{1}{4}(-\log_2\frac{1}{4})+\frac{1}{4}(-\log_2\frac{1}{4})+\frac{1}{4}(-\log_2\frac{1}{4})+\frac{1}{4}(-\log_2\frac{1}{4})\\ &=2(bit) \end{aligned} H(x)=i=1MP(xi)[log2P(xi)]=41(log241)+41(log241)+41(log241)+41(log241)=2(bit)
    是不是跟上面等概求信息量的结果相同,这就对咯, P ( x i ) = 1 / M P(x_i)=1/M P(xi)=1/M(每个符号等概率独立出现)时,式(1.4-6)即成为式(1.4-4),此时信源的熵有最大值,而熵是描述体系混乱程度的度量

  • 模拟4进制,共4种颜色
    第一个圆,每个颜色等概出现,肉眼可见杂乱,此时熵最大
    第二个圆,红色概率最大,其它的最低,肉眼可见整个体系趋向于红色,熵比较小
    在这里插入图片描述

  • 通信原理第12页【例1-2】:
    一离散信源由0,1,2,3共4个符号组成,它们出现的概率分别为3/8,1/4,1/4,1/8,且每个符号的出现都是独立的。试求某条消息201020130213001203210100321010023102002010312032100120210的信息量
    H ( x ) = − ∑ i = 1 M P ( x i ) [ log ⁡ 2 P ( x i ) ] = 3 8 ( − log ⁡ 2 3 8 ) + 1 4 ( − log ⁡ 2 1 4 ) + 1 4 ( − log ⁡ 2 1 4 ) + 1 8 ( − log ⁡ 2 1 8 ) = 1.906 ( b i t ) \begin{aligned} H(x)&=-\sum_{i=1}^MP(x_i)[\log_2P(x_i)]\\ &=\frac{3}{8}(-\log_2\frac{3}{8})+\frac{1}{4}(-\log_2\frac{1}{4})+\frac{1}{4}(-\log_2\frac{1}{4})+\frac{1}{8}(-\log_2\frac{1}{8})\\ &=1.906(bit) \end{aligned} H(x)=i=1MP(xi)[log2P(xi)]=83(log283)+41(log241)+41(log241)+81(log281)=1.906(bit)

  • 即,一个码元只需要1.906个bit就能表示这4个符号,这条消息有57个码元,则总信息量为
    I = 57 × 1.906 = 108.64 ( b i t ) I=57×1.906=108.64(bit) I=57×1.906=108.64(bit)
    在这里插入图片描述

  • 通信原理第13页中间:
    对于数字通信系统,其频谱利用率定义在单位带宽(每赫)内的传输速率,即
    η = R B B ( B a u d / H z ) \eta=\frac{R_B}{B}\qquad(Baud/Hz) η=BRB(Baud/Hz)

    η b = R b B ( b / ( s ⋅ H z ) ) \eta_b=\frac{R_b}{B}\qquad(b/(s·Hz)) ηb=BRb(b/(sHz))
    其中 R B R_B RB为码元传输速率,简称传码率。它被定义为单位时间(每秒)传输的码元的数目,单位为波特(Baud),因此,又称 R B R_B RB为波特率
    设每个码元的长度为 T B ( s ) T_B(s) TB(s),则有
    R B = 1 T B ( B a u d ) R_B=\frac{1}{T_B}\qquad(Baud) RB=TB1(Baud)
    其中 R b R_b Rb为信息传输速率,简称传信率,又称比特率。它定义为单位时间内传输的平均信息量,单位为比特/秒(b/s)

  • 以4进制为例,单位时间内传输 m m m个码元,而一个码元有2bit信息量,那么单位时间传输 2 m 2m 2m个bit
    特别的,2进制,此时波特率和比特率数值上相等
    在这里插入图片描述

  • 通信原理第13页末尾:
    因为一个 M M M进制码元携带 log ⁡ 2 M \log_2M log2M比特的信息量,所以码元速率和信息速率有以下确定的关系,即
    R b = R B log ⁡ 2 M ( b / s ) R_b=R_B\log_2M\qquad(b/s) Rb=RBlog2M(b/s)

    其中 log ⁡ 2 M \log_2M log2M只针对每个符号出现概率相同的情况下计算,因为概率相同的情况下,平均信息量就等于单个符号的信息量
    若每个符号出现的概率不同,则 log ⁡ 2 M \log_2M log2M需要替换成平均信息量来计算了,如下
    R b = − R B ∑ i = 1 M P ( x i ) [ log ⁡ 2 P ( x i ) ] R_b=-R_B\sum_{i=1}^MP(x_i)[\log_2P(x_i)] Rb=RBi=1MP(xi)[log2P(xi)]

  • 回到中间那个问题:为什么比特, log ⁡ \log log函数的底数就是2呢?
    因为数字系统传输只能表示0或1,即一个信息只能表示2个状态或数值,则 log ⁡ \log log函数的底数为2,信息量的单位为比特(bit)
    若一个信息能表示 e e e个状态或数值,则 log ⁡ \log log函数的底数为 e e e,信息量的单位为奈特(nat)
    若一个信息能表示 10 10 10个状态或数值,则 log ⁡ \log log函数的底数为 10 10 10,信息量的单位为哈特莱(Hartley)
    在这里插入图片描述
    它们的信息量都为1,但是单位不同

  • 以哈特莱为例,共10个事件,每个事件等概出现,则 P ( x ) = 1 / 10 P(x)=1/10 P(x)=1/10,带入公式中
    I = log ⁡ 10 1 P ( x ) = log ⁡ 10 1 1 / 10 = 1 ( H a r t l e y ) I=\log_{10}\frac{1}{P(x)}=\log_{10}\frac{1}{1/10}=1\qquad(Hartley) I=log10P(x)1=log101/101=1(Hartley)
    也就是说一个码元内的信息量就是 1 哈特莱

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/652145.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

安利6款免费又高清的视频转GIF方法,值得收藏

前言 平时我们在聊天的时候会发的很多有趣表情包,其实有些就是视频里面的画面,觉得好玩有趣就被网友转换成了GIF,聊天的时候就可以用这些表情包来代表当时的心情。 如何将视频转成GIF动图?对于还不知道怎么将视频转成GIF的朋友&a…

uniapp微信小程序-秋云u-charts层级过高

一、先说问题 想在这个每个圆环上面定位一些百分比或者定位一些东西,微信小程序端可以,真机调试不行,打算提高层级不行 二、解决 点击底下开启2d就可以, 也就是在你的图表上加上 :canvas2d"true"

Adobe ColdFusion 任意文件读取漏洞复现(CVE-2023-26361)

0x01 产品简介 Adobe ColdFusion是美国奥多比(Adobe)公司的一套快速应用程序开发平台。该平台包括集成开发环境和脚本语言。 0x02 漏洞概述 Adobe ColdFusion平台 filemanager.cfc接口存在任意文件读取漏洞,攻击者可通过该漏洞读取系统重要文件(如数据库配置文件、系统配…

流畅的Python(六)-使用一等函数实现设计模式

一、核心要义 《设计模式:可复用面向对象软件的基础》一书中有23个设计模式,其中有16个在动态语言中"不见了或者简化了"。作为动态语言之一的Python, 我们可以利用一等函数简化其中的某些设计模式,本章主要介绍如何使用一等函数重…

c++ QT 信号的个人理解 信号就是独立文件调用的一种“协议”

一. 简介 就我个人来理解,信号槽机制与Windows下消息机制类似,消息机制是基于回调函数,Qt中用信号与槽来代替函数指针,使程序更安全简洁。 信号和槽机制是 Qt 的核心机制,可以让编程人员将互不相关的对象绑定在一起&a…

如何用web界面打开华为防火墙

目录 1.创建一个虚拟网卡 2.cloud操作 3.防火墙上操作 4. 登录 1.创建一个虚拟网卡 2.cloud操作 3.防火墙上操作 4. 登录

Netty的解码器和编码器

链路图 一个完整的RPC请求中,netty对请求数据和响应数据的处理流程如下图所示 网络线路中传输的都是二进制数据,之后netty将二进制数据解码乘POJO对象,让客户端或者服务端程序处理。 解码的工具称为解码器,是一个入站处理器InBo…

物联网协议Coap之C#基于Mozi的CoapClient调用解析

目录 前言 一、CoapClient相关类介绍 1、CoapClient类图 2、CoapClient的设计与实现 3、SendMessage解析 二、Client调用分析 1、创建CoapClient对象 2、实际发送请求 3、Server端请求响应 4、控制器寻址 总结 前言 在之前的博客内容中,关于在ASP.Net Co…

node.js 分布式锁看这篇就够用了

Redis SETNX 命令背后的原理探究 当然,让我们通过一个简单的例子,使用 Redis CLI(命令行界面)来模拟获取锁和释放锁的过程。 在此示例中 获取锁: # 首先,设置锁密钥的唯一值和过期时间(秒) 127.0.0.1:6379> SET …

数字三角形(很经典的动态规划问题)

给定一个如下图所示的数字三角形,从顶部出发,在每一结点可以选择移动至其左下方的结点或移动至其右下方的结点,一直走到底层,要求找出一条路径,使路径上的数字的和最大。 73 88 1 02 7 4 4 4 5 2 6 …

第2章-神经网络的数学基础——python深度学习

第2章 神经网络的数学基础 2.1 初识神经网络 我们来看一个具体的神经网络示例,使用 Python 的 Keras 库 来学习手写数字分类。 我们这里要解决的问题是, 将手写数字的灰度图像(28 像素28 像素)划分到 10 个类别 中(0…

基于多种CNN模型在清华新闻语料分类效果上的对比

该实验项目目录如图: 1、 模型 1.1. TextCNN # coding: UTF-8 import torch import torch.nn as nn import torch.nn.functional as F import numpy as npclass Config(object):"""配置参数"""def __init__(self, dataset, embedd…

【C++类与对象(上)】

C类与对象(上) 1.面向过程和面向对象初步认识2.类的引入3.类的定义4.类的访问限定符及封装4.1 访问限定符4.2 封装 5.类的作用域6.类的实例化7.类的对象大小的计算7.1如何计算类对象的大小7.2 类对象的存储方式猜测7.3结构体内存对齐规则 8.类成员函数的this指针8.1…

Java多线程基础-18:线程安全的集合类与ConcurrentHashMap

Java标准库提供了很多集合类,但有一些集合类是线程不安全的,也就是说,在多线程环境下可能会出问题的。常用的ArrayList,LinkedList,HashMap,PriorityQueue等都是线程不安全的(Vector, Stack, Ha…

Android创建工程

语言选择Java,我用的Java 最小SDK:就是开发的APP支持的最小安卓版本 Gradle 是一款Google 推出的基于 JVM、通用灵活的项目构建工具,支持 Maven,JCenter 多种第三方仓库;支持传递性依赖管理、废弃了繁杂的xml 文件,转而…

关于ArcGIS的Update更新工具的疑问

Update更新工具官方帮助文件解释如下: 但是根据这个插图很让人疑惑,输入要素是蓝色,更新要素是黄色,输出要素为绿色,而且全部是绿色。我一直以为是与更新要素相交(被包含切割)的哪些输入要素都被…

【常用工具】7-Zip 解/压缩软件——基本使用方法

在实际日常工作或项目中,经常会遇到需要在window操作系统上压缩文件,在Linux操作系统上解压缩的场景,一款实用的压缩软件迫在眉睫,经过实际使用总结,7-Zip可以很好的解决很多压缩和解压缩问题,其基本使用方…

WordPress如何自定义日期和时间格式?附PHP日期和时间格式字符串

WordPress网站在很多地方都需要用到日期和时间,那么我们应该在哪里设置日期和时间呢?又如何自定义日期和时间格式呢?下面boke112百科就跟大家一起来学习一下PHP标准化的日期和时间格式字符串。 特别说明:格式字符是标准化的&#…

canvas绘制旋转的大风车

查看专栏目录 canvas实例应用100专栏,提供canvas的基础知识,高级动画,相关应用扩展等信息。canvas作为html的一部分,是图像图标地图可视化的一个重要的基础,学好了canvas,在其他的一些应用上将会起到非常重…

LCweekly-game

ExScorecomplete situation1220717/719(解答错误)30523/537(超时,弱智题已AC)40 有用的是Ex2和Ex4 Ex2 my solution class Solution { public://calculate xs l-time 幂乘int jiecheng(int x,int l){int zx;for(int i0;i<l;i){if(z>pow(10,4.5))return 0;zz*z;}return…