第二章 离散信源及其信息测度
1.信息的衡量
自信息量
自信息量的概念就是得到这个信息之后消除了多少的不确定性。
这里和之前写的这个通信原理中信息熵的定义是一样的,毕竟都是通信人搞的东西吗。这里直接借用相关推理和解释:
信息这个东西既然作为研究对象被我们研究,那就需要给他量化。具体我们用的啥来量化?就是倒数取对,得信息量。注意这里讲的是自信息量。
\[ I=-log_aP(x) \tag{式1} \]
因为这样能很好的符合:
概率越小的事情信息量越大,是个单调递减函数,一定发生时信息量为0,一定不发生信息量为无穷。
若干独立事件构成的消息等于个独立事件信息量之和。
OK照搬的部分解决了,然后下面讲一讲这门课里面细化讲的东西。
值得注意的是: \(x_ i\) 是一个随机量, 而 \(I(x_i)\) 是关于这个随机量的函数,所以自信息量也 是一个随机变量,它没有确定的值。
其中式1中的底数a取2为比特,e为奈特,10为哈特。
联合自信息量
\[\begin{bmatrix} XY \\ P(XY) \end{bmatrix} = \begin{cases} x_1y_1, \dots, x_1y_m, & x_2y_1, \dots, & x_2y_m, \dots, & x_ny_1, \dots, & x_ny_m \\ p(x_1y_1), \dots, p(x_1y_m), & p(x_2y_1), \dots, & p(x_2y_m), \dots, & p(x_ny_1), \dots, & p(x_ny_m) \end{cases}\]
这东西看一眼就知道,其自信息量无非就是给 \(X\) 换成 \(XY\) :
\[I(x_i,y_j) = \log_{2}\frac{1}{p(x_i,y_j)}\]
就是两个变量只给了联合的概率分布时,对这两个东西所求的自信息量就是联合自信息量。
条件自信息量
设 \(y_j\) 条件下,发生 \(x_i\) 的条件自信息量:
\[I(x_i / y_j)=\log_{2}\frac{1}{p(x_i / y_j)}\]
\(x_i\) 已知时发生 \(y_j\) 的条件自信息量:
\[I(y_j / x_i)=\log_{2}\frac{1}{p(y_j / x_i)} \]
自信息量、条件自信息量和联合自信息量之间的关系:
\[\begin{align*} I(x_i y_j)&=\log_{2}\frac{1}{p(x_i)p(y_j / x_i)} = I(x_i)+I(y_j / x_i)\\ &=\log_{2}\frac{1}{p(y_j)p(x_i / y_j)} = I(y_j)+I(x_i / y_j) \end{align*} \]
互信息量
我们知道,信息从信源到信宿,进过信道时会混合噪声,这个时候我们从信宿消除的不确定性的角度来看,互信息量就是信宿获得传来的信息后消除的不确定性。
于是我们从信宿的角度来推,首先是假设一下信源发 \(x_i\) 的概率,即先验概率;
然后信宿收到 \(y_i\) 时推测他发来的是 \(x_i\) 的概率,这个是个条件概率,为后验概率。
我们用先验的不确定性减去后验的不确定性,得到的就是互信息量。注意这里讲的都是不确定性,也就是信息量。
公式就是
\[ \begin{align*} I(x_i ; y_j) &= \log_{2}\frac{p(x_i / y_j)}{p(x_i)} \quad (i = 1,2,\dots,n; j = 1,2,\dots,m) \\ &= \log_{2}\frac{1}{p(x_i)} - \log_{2}\frac{1}{p(x_i / y_j)} \\ &= I(x_i) - I(x_i / y_j) \end{align*} \]
简言之,互信息量的定义是为了量化观测到一个事件后,对另一个事件不确定性的改变量。在上面的例子里面,就是观测到信宿收到事件之后,对信源发来的信息的不确定性的改变量,便于确定信源究竟发来了什么信息。
这个理解是有点难度的我个人感觉,我写这段话的时候也想了一会儿。
这里再给个例题,方便理解:
假设信源要发送一枚硬币的正反面,两种可能:
- \(x_1 = 正\),\(p(x_1)=0.5\)
- \(x_2 = 反\),\(p(x_2)=0.5\)
但是传输过程中有噪声,导致接收端信宿收到的结果可能被“翻转”:
| 信源发出\(x_i\) | 信宿收到\(y_j\) | 条件概率 |
|---|---|---|
| 正 | 正 | 0.8 |
| 正 | 反 | 0.2 |
| 反 | 正 | 0.2 |
| 反 | 反 | 0.8 |
现在计算信宿收到 \(y_1 = 正\) 时,互信息量 \(I(x; y_1)\)。
第一步:求后验概率 \(p(x_i|y_1)\)
信宿收到“正”的总概率:
\[p(y_1)=p(x_1)p(y_1|x_1) + p(x_2)p(y_1|x_2)=0.5×0.8+0.5×0.2=0.5\]
后验概率:
\[p(x_1|y_1)=\frac{0.5×0.8}{0.5}=0.8,\quad p(x_2|y_1)=0.2\]
第二步:计算互信息量
以 \(x_1=正\) 为例:
\[I(x_1;y_1)=\log_2\frac{p(x_1|y_1)}{p(x_1)}=\log_2\frac{0.8}{0.5}=\log_2(1.6)≈0.678\text{ bit}\]
这表示:原本我们对“正”是否被发送不确定(1 bit),但现在看到“接收到正”后,不确定性减少了约 0.678 bit。最终的结果就是我偏向于信任这个是正面,但是不排除有反面的可能。(最后这句好像有问题)
类似的,可以算一下为反面的互信息,发现他是负的。
互信息的性质
两句话:
- 有对称性,知道a求对b互信息量和知道b求a互信息量相同
- 相互独立两事件互信息量为0
条件互信息量
定义:消息 \(x_i\) 与消息对 \(y_j z_k\) 之间的互信息量为
\[I(x_i ; y_j z_k) = \log_{2}\frac{p(x_i / y_j z_k)}{p(x_i)} = \log_{2}\frac{1}{p(x_i)} - \log_{2}\frac{1}{p(x_i / y_j z_k)} \]
条件互信息量定义:
在给定 \(z_k\) 条件下,\(x_i\) 与 \(y_j\) 之间的互信息量。
\[I(x_i ; y_j / z_k) = \log_{2}\frac{p(x_i / y_j z_k)}{p(x_i / z_k)} = \log_{2}\frac{1}{p(x_i / z_k)} - \log_{2}\frac{1}{p(x_i / y_j z_k)} \]
\(x_i\) 与 \(y_j z_k\) 的互信息量
\[I(x_i ; y_j z_k) = I(x_i ; z_k) + I(x_i ; y_j / z_k)\]
上式表明:一个联合事件 \(y_j z_k\) 发生后所提供的有关 \(x_i\) 的信息量 \(I(x_i ; y_j z_k)\) ,等于 \(z_k\) 发生后提供的有关 \(x_i\) 的信息量 \(I(x_i ; z_k)\) 与给定 \(z_k\) 条件下再出现 \(y_j\) 后所提供的有关 \(x_i\) 的信息量 \(I(x_i ; y_j / z_k)\) 之和。
信息熵
同理,搬运通信原理第一章的内容:
定义信息熵 \(H\) (离散):
\[ H(x) = \sum P(x_i)I(x_i) \]
等于就是加权求和嘛,描述的是平均的信息量。
不过要注意的一点就是,这个权重是针对整体概率的,而非样本的,详情可见下面这个例题:
然后课上还提到了一些人文的东西,但是我感觉扣这个字眼没啥意思,就直接放上去拉倒了。
信息熵的基本性质
- 非负性
对于离散信源是这样的,但是对于连续信源这一性质并不存在。
- 对称性、确定性
没啥用不讲。
- 拓展性
就是加入一个极小概率的事件,它本身信息量巨大,但是在信源熵里面的改变很小,微乎其微几乎不变。
- 最大离散熵定理
类似于基本不等式,离散信源为等概率信源时离散熵最大。证明直接略。
- 可加性
联合分布的熵等于a的熵加上在a发生的情况下b的条件熵。
ab统计独立时,ab联合熵就是直接加
\[\begin{align*} H(XY) &= H(X) + H(Y/X) \\ H(XY) &= H(Y) + H(X/Y) \\ H(XY) &= H(X) + H(Y) \quad \text{X与Y统计独立时} \end{align*} \]
- 上凸性
设 \(f\) 的定义域中任意两个矢量 \(X\) 、\(Y\) ,若
\[f[aX + (1 - a)Y] > af(X) + (1 - a)f(Y)\]
2.信源的数学模型
在通信系统中,信源可以看作是产生消息的随机过程。
消息的输出具有随机性,因此可以用:
- 随机变量(单符号信源)
- 随机矢量(多符号信源)
- 随机过程(连续时间信源)
来刻画信源的输出。
在信息论里面,我们将信源定义为能够根据概率随机发送不同信息的装置,数学表达为:
$$ \[\begin{bmatrix} X\\ P(x) \end{bmatrix}\]=
\[\begin{bmatrix} a_1 & a_2 & a_3 & … & a_q\\ P(a_1) & P(a_2) & P(a_3) & … & P(a_q) \end{bmatrix}\]$$
当然,这个是离散信源,连续信源的话能一眼看出,不写了。
上面这个是最简单的一个,单一符号的信源,如果涉及到多符号离散信源,那么可用随机矢量来描述。
顺便插一嘴,连续信源的描述用的是随机过程,这个是另外一门课,随机信号分析所涉及到的,这里就不细讲了。
类似的,顺便提一嘴信宿,信宿如果用Y来表示的话,他的数学模型可以是:
$$ \[\begin{bmatrix} Y\\ P(y) \end{bmatrix}\]=
\[\begin{bmatrix} b_1 & b_2 & b_3 & … & b_q\\ P(b_1) & P(b_2) & P(b_3) & … & P(b_q) \end{bmatrix}\]$$
3.典型离散信源的举例
离散无记忆的扩展信源
离散无记忆信源很简单,就是前后统计独立,这里直接略过。
在此基础上,我们如果把N个二元数字看成一组,则新的 信源称为二元无记忆信源的N次扩展信源。
他的信息熵就会多一条性质:
\[H(X^N)=NH(X)\]
想起来很简单,没拓展之前是 \(H(X)\) 算,拓展的时候拓几个N就是多加几次的 \(H(X)\) 吗。
离散平稳信源
首先注意一个点,在讲完上面这个无记忆信源之后,后面这几个默认讨论的是有记忆的信源,即下一时刻的发出的消息是和上一时刻发出的消息是有关的。
实际上再仔细想想也是,这个如果是没有关系的话就直接按照无记忆信源来讲了,也没有必要引入一个平稳信源的概念。
这个平稳已经在三门课里面提到过了,随机信号分析讲过宽平稳严平稳,通信原理讲过,这里也是。
随机信号分析里面宽平稳就是一维概率分布函数与时间无关,二维的只与时间间隔有关。宽平稳就是自相关函数和均值与时间无关即可。
他的这个定义就类似于宽平稳,即序列的各种统计性质与时间的推移无关。
这里有一点很关键,就是各维条件概率只与关联长度N有关,而与时间起点无关;各维条件熵只与关联长度有关,而与时间起点无关。 这个才是这个本章的关键。
离散平稳信源也有自己的一点性质:
对任意时刻 \(t\) ,统计特性不随时间变化;
\(N\) 阶条件熵 \(H(X_N|X_1...X_{N-1})\) 随 \(N\) 增大单调不增,想起来很简单,推恩令吗;
存在极限熵:
\[H_\infty = \lim_{N \to \infty} H(X_N|X_1...X_{N-1})\]
这里对极限熵进行一个补充:
极限熵
为什么要引入极限熵?
若是信源无记忆,那么每个符号之间完全独立,那么他每次输出一个符号带来的平均信息量就是固定的:
\[H(X_1, X_2, \ldots, X_N) = N \cdot H(X)\]
但是显然,我们需要引入这个有记忆的信源,而有记忆的信源势必会受到上一个,甚至很多之前的符号的影响。于是我们就引入了条件熵这个概念来描述这一现象。
二维平稳信源
最简单的平稳信源,即二维平稳信源,他只有前后两个符号之间有依赖关系。我们可对其二维拓展信源进行分析。
这个时候就和无记忆信源有所不同了,除了联合概率分布以外,还出现了一个条件概率,这个条件概率是指 \(a_i\) 出现后, \(a_{i+1}\) 出现的概率。
由二维离散信源的发出符号序列的特点可以把其分成每两个符号一组,每组代表新信源 \(X = X_1X_2\) 中的一个符号。并假设组与组之间是统计独立的,互不相关的。
得到一个新的离散无记忆信源 \(X_1X_2\) ,其联合概率空间为:
\[ \begin{bmatrix} X_1X_2 \\ P(x_1x_2) \end{bmatrix} = \begin{bmatrix} a_1a_1, a_1a_2, \dots, a_{q-1}a_q, a_q a_q \\ P(a_i a_j) = P(a_i)P(a_j \mid a_i) \end{bmatrix} \]
在此基础上,我们研究这个信源的信息熵。
- 联合熵
\[ H(X_1X_2) = -\sum_{i=1}^{q} \sum_{j=1}^{q} P(a_i a_j) \log P(a_i a_j) \] 这里因为它是平稳的吗,可以直接拿这个 \(H(X_1H_2)\) 的一半来表示原未扩展版本的(表述有问题)
- 条件熵
\[H(X_2 \mid X_1 = a_i) = -\sum_{j=1}^{q} P(a_j \mid a_i) \log P(a_j \mid a_i)\]
\[\begin{align*} H(X_2 \mid X_1) &= \sum_{i=1}^{q} P(a_i) H(X_2 \mid X_1 = a_i) \\ &= -\sum_{i=1}^{q} \sum_{j=1}^{q} P(a_i) P(a_j \mid a_i) \log P(a_j \mid a_i) \\ &= -\sum_{i=1}^{q} \sum_{j=1}^{q} P(a_i a_j) \log P(a_j \mid a_i) \end{align*} \]
马尔可夫信源
- 定义
马尔可夫信源是符号之间存在有限依赖关系的信源。什么马尔科夫链、马尔科夫过程都是跟他有着一样的中心思想。
即任一时刻的输出仅与前 \(m\) 个符号有关:
\[P(x_n|x_{n-1}, x_{n-2}, ..., x_1) = P(x_n|x_{n-1}, ..., x_{n-m}) \]
当 \(m=0\) :离散无记忆信源;
当 \(m=1\) :一阶马尔可夫信源。
为了描述各个时间前后这个马尔科夫信源的状态,我们引入状态空间的概念,以及状态转移概率(可拓展为状态转移矩阵)
状态空间(状态取值范围,也就是各个结果的概率) \(E=\{E_1,E_2,...,E_J\}\) ,符号集(实际上就是他的下标) \(X=\{a_1,a_2,...,a_q\}\) 。
定义:
发射概率: \(p(a_k|E_i)\)
状态转移概率: \(p(E_j|E_i)\)
若这些概率与时间无关,称为齐次马尔可夫链。
马尔可夫链的状态转移图:每个圆圈代表一种状态,状态之间的有向线代表某一状态向另一状态的转移。有向线一侧的符号和数字分别代表发出 的符号和条件概率。
对 m 阶信源,有:
\[H_{m+1} = -\sum_{x_{1}^{m+1}} P(x_{1}^{m+1}) \log P(x_{m+1}|x_1...x_m)\]
并且 \(H_0 \ge H_1 \ge H_2 \ge ... \ge H_\infty\) 。
遍历性与极限熵:
若马尔可夫链遍历性成立,则存在唯一的稳定分布:
\[Q(E_i) = \sum_j Q(E_j)p(E_i|E_j)\]
极限熵为:
\[H_\infty = -\sum_{i,j} Q(E_i)p(a_j|E_i)\log p(a_j|E_i)\]
同时也注意,m阶马尔科夫信源的极限熵等于m阶条件熵,即 \(H_m = H_{无穷}\)
信源剩余度与自然语言的熵
实际信源的近似
实际信源往往非平稳,极限熵 \(H_\infty\) 不一定存在。
可通过测得足够长序列的条件概率 \(P(X_N|X_1X_2...X_{N-1})\) ,近似求:
\[H_N(X) \approx H_\infty\]
(2) 用马尔可夫信源近似
平稳信源的熵计算困难,可用 m 阶马尔可夫信源的熵 \(H_{m+1}\) 近似:
\[H_{m+1} \approx H_\infty\]
近似精度取决于记忆长度 \(m\) 。
(3) 信源符号相关性与平均信息量
\[\log_2 q = H_0 \ge H_1 \ge H_2 \ge ... \ge H_m \ge H_\infty\]
依赖越强,熵越小;符号越独立,熵越大。
九、信源冗余度与通信效率
(1) 定义
- 相对熵率:
\[ \eta = \frac{H_\infty}{H_0}\]
- 信源冗余度:
\[ \gamma = 1 - \eta = 1 - \frac{H_\infty}{H_0}\]
(2) 含义
- ( ) 反映符号间依赖性;
- ( ) 越大,信源越可压缩。
例如英语的冗余度: [ = 1 - ] → 英语的71%信息可预测,仅29%自由度。
(3) 结论
- 高冗余 → 易压缩、抗噪强;
- 低冗余 → 效率高但易受干扰;
- 编码设计需在“效率”与“可靠性”之间权衡。
十、通信效率与可靠性
- 信源编码:减少冗余,提高效率;
- 信道编码:增加冗余,提高可靠性; 两者构成信息传输系统的根本矛盾与平衡点。
📘 总结 >
本章核心在于理解“熵”作为信息量度的本质意义。
> 马尔可夫信源刻画了现实信源的有限记忆性,
> 而“冗余度”与“极限熵”揭示了语言信息的压缩潜力与抗干扰特性。