一张图文深入了解信息量概念

通信原理第10页最后一段：
概率论告诉我们，事件的不确定程度可以用其出现的概率来描述。因此，消息中包含的信息量与消息发生的概率密切相关。消息出现的概率越小，则消息中包含的信息量就越大。
这句话怎么理解呢？
比如，一个方框代表一条消息，假设内部每个小球的出现概率相同
（1）第一个方框每种颜色的小球出现的概率是1/6，共有6个小球
（2）第二个方框每种颜色的小球出现的概率1/n（n→ $\infty$ ），共有n个小球
即：概率越小，能包含的小球就越多，该结论仅解释概率与信息量的关系
通信原理第11页开头：
$I$ （信息量）与 $P (x)$ （消息发生概率）之间的关系应当反映如下规律：
（1）消息中所含的信息量是该消息出现的概率的函数，即
$I = I [P (x)]$
（2） $P (x)$ 越小， $I$ 越大；反之， $I$ 越小；且当 $P (x) = 1$ 时， $I = 0$ ； $P (x) = 0$ 时， $I=\infty$
（3）若干个互相独立事件构成的消息，所含信息量等于各独立事件信息量之和，也就是说，信息具有相加性，即
$I[P(x_1)P(x_2)\cdots]=I[P(x_1)]+I[P(x_2)]+\cdots$
不难看出，若 $I$ 与 $P (x)$ 之间的关系式为
$\log_a\frac{1}{P(x)}=-\log_aP(x)$
满足上述三个条件的简单函数，仅 $\log$ 函数，以 $y=\log_2a$ 函数为例，假设 $a=\frac{1}{P(x)}$
当 $P (x)$ 概率增大， $a$ 就越小，y就越大
当 $P (x)$ 概率减小， $a$ 就越大，y就越小
当 $P (x) = 1$ ， $a = 1$ ，则 $y = 0$
当 $P (x) \to 0$ ， $a→\infty$ ，则 $y→\infty$
符合上述三条规律
通信原理第11页中间：

通常广泛使用的单位为比特，这时有
$I=\log_2\frac{1}{P(x)}=-\log_2P(x)\qquad(b)$
这个公式暂时先死记，二进制传输系统中度量信息量的公式就是这小子了
-为什么用比特， $\log$ 函数的底数就是2呢？最后解答
通信原理第11页【例1-1】：
这里就不贴原文了，以下内容，详细解释信息量是什么东西，个人觉得还是从多进制开始涉入才理解深刻
图中一个方框就代表一个码元，一条消息有n个码元，而这一个码元可能会发生4种事件，即4个值，二进制传输系统中，最小传输单元仅用高低电平表示0或1，这里方框内的圆圈就是最小传输单元，只能表示0或者1
那么一个码元需要表示4个值，就需要两个最小传输单元
视角转到电平信号，假设一条消息只有一个码元，而这一个码元需要表示为4个值，就需要两个bit，而这两个bit就是信息量，也就是一个码元内，需要多少个bit来表示出所有的值，而信息量的单元就是比特
再比如，一个码元需要表示0至7的整数，每个整数等概出现，就需要3bit来表示，那么它的信息量就是3bit
前面都是再以2的幂来举例的，这次来个非2的幂的数
比如说，一个码元需要表示0-9的整数，每个整数等概出现，即 $P(x)=\frac{1}{10}$ ，根据公式（1.4-2）得
$I=-\log_2P(x)=-\log_2\frac{1}{10}\approx3.321928(bit)$
也就是说一个码元需要约3.321928个bit才能表示0-9的整数
特别的，当一个码元仅需要表示两个数值0或1时，一个码元就只需要一个bit就可以表示2个数值了，这种情况下，一个码元就是一个bit，4进制一个码元有2bit，8进制一个码元有3bit，10进制一个码元约有3.321928个bit…
通信原理第12页开头：
上述是在每个事件等概出现的情况下，探讨的，下面来讨论各事件非等概的情况下，怎么计算信息量（一个码元需要多少个bit才能表示所有数值）
设离散信源是一个由 $M$ 个符号组成的集合，其中每个符号 $x_i(i=1,2,3,...,M)$ 按照一定的概率 $P(x_i)$ 独立出现，即
$\begin{bmatrix} x_1, & x_2, &\cdots, & x_M \\ P(x_1), &P(x_2), &\cdots, & P(x_M) \end{bmatrix} ,且\sum_{i=1}^{M}P(x_i)=1$
则 $x_1,x_2,\cdots,x_M$ 所包含的信息量分别为
$-\log_2P(x_1),-\log_2P(x_2),\cdots,-\log_2P(x_M)$
于是，每个符号所含信息量的统计平均值，即平均信息量为
$\begin{aligned} H(x)&=P(x_1)[-\log_2P(x_1)]+P(x_2)[-\log_2P(x_2)]+\cdots+P(x_M)[-\log_2P(x_M)]\\ &=-\sum_{i=1}^MP(x_i)[\log_2P(x_i)] \end{aligned}$
这里先以等概举例，比如4进制，0-3的每个数值等概出现，即1/4，那么平均信息量就等于
$\begin{aligned} H(x)&=-\sum_{i=1}^MP(x_i)[\log_2P(x_i)]\\ &=\frac{1}{4}(-\log_2\frac{1}{4})+\frac{1}{4}(-\log_2\frac{1}{4})+\frac{1}{4}(-\log_2\frac{1}{4})+\frac{1}{4}(-\log_2\frac{1}{4})\\ &=2(bit) \end{aligned}$
是不是跟上面等概求信息量的结果相同，这就对咯，当 $P(x_i)=1/M$ （每个符号等概率独立出现）时，式（1.4-6）即成为式（1.4-4），此时信源的熵有最大值，而熵是描述体系混乱程度的度量
模拟4进制，共4种颜色
第一个圆，每个颜色等概出现，肉眼可见杂乱，此时熵最大
第二个圆，红色概率最大，其它的最低，肉眼可见整个体系趋向于红色，熵比较小
通信原理第12页【例1-2】：
一离散信源由0，1，2，3共4个符号组成，它们出现的概率分别为3/8，1/4，1/4，1/8，且每个符号的出现都是独立的。试求某条消息201020130213001203210100321010023102002010312032100120210的信息量
$\begin{aligned} H(x)&=-\sum_{i=1}^MP(x_i)[\log_2P(x_i)]\\ &=\frac{3}{8}(-\log_2\frac{3}{8})+\frac{1}{4}(-\log_2\frac{1}{4})+\frac{1}{4}(-\log_2\frac{1}{4})+\frac{1}{8}(-\log_2\frac{1}{8})\\ &=1.906(bit) \end{aligned}$
即，一个码元只需要1.906个bit就能表示这4个符号，这条消息有57个码元，则总信息量为
$I = 57 \times 1.906 = 108.64 (bi t)$
通信原理第13页中间：
对于数字通信系统，其频谱利用率定义在单位带宽（每赫）内的传输速率，即
$\eta=\frac{R_B}{B}\qquad(Baud/Hz)$
或
$\eta_b=\frac{R_b}{B}\qquad(b/(s·Hz))$
其中 $R_B$ 为码元传输速率，简称传码率。它被定义为单位时间（每秒）传输的码元的数目，单位为波特（Baud），因此，又称 $R_B$ 为波特率
设每个码元的长度为 $T_B(s)$ ，则有
$R_B=\frac{1}{T_B}\qquad(Baud)$
其中 $R_b$ 为信息传输速率，简称传信率，又称比特率。它定义为单位时间内传输的平均信息量，单位为比特/秒(b/s)
以4进制为例，单位时间内传输 $m$ 个码元，而一个码元有2bit信息量，那么单位时间传输 $2 m$ 个bit
特别的，2进制，此时波特率和比特率数值上相等
通信原理第13页末尾：
因为一个 $M$ 进制码元携带 $log_2M$ 比特的信息量，所以码元速率和信息速率有以下确定的关系，即
$R_b=R_B\log_2M\qquad(b/s)$
其中 $log_2M$ 只针对每个符号出现概率相同的情况下计算，因为概率相同的情况下，平均信息量就等于单个符号的信息量
若每个符号出现的概率不同，则 $log_2M$ 需要替换成平均信息量来计算了，如下
$R_b=-R_B\sum_{i=1}^MP(x_i)[\log_2P(x_i)]$
回到中间那个问题：为什么比特， $\log$ 函数的底数就是2呢？
因为数字系统传输只能表示0或1，即一个信息只能表示2个状态或数值，则 $\log$ 函数的底数为2，信息量的单位为比特（bit）
若一个信息能表示 $e$ 个状态或数值，则 $\log$ 函数的底数为 $e$ ，信息量的单位为奈特（nat）
若一个信息能表示 $10$ 个状态或数值，则 $\log$ 函数的底数为 $10$ ，信息量的单位为哈特莱（Hartley）

它们的信息量都为1，但是单位不同
以哈特莱为例，共10个事件，每个事件等概出现，则 $P (x) = 1/10$ ，带入公式中
$I=\log_{10}\frac{1}{P(x)}=\log_{10}\frac{1}{1/10}=1\qquad(Hartley)$
也就是说一个码元内的信息量就是 1 哈特莱