首页 > 代码库 > 信息论基础

信息论基础

1、熵和信息量

有一组离散符号集{v1,v2,...,vm},每个符号具有相应概率Pi,为衡量这组符号组成的特定序列的随机性(不确定性或不可预测性),定义离散分布的熵:,对数以2为底,熵的单位的“比特”,当连续情况时,底数为e,单位为“奈特”。对于回答是否问题时,每个可能答案出现概率为0.5,那么此时的熵为1。熵的公式也可写为:H=ε[log(1/P)],P是随机变量,取值P1,P2,...Pm,log21/P有时称惊奇率。

熵的值并不依赖与符号本身,而只依赖于这些符号的概率。对于给定的m个符号,当这些符号出现的概率相同时,熵最大(H=log2m)。即当每个符号出现的概率相同时,对下一个符号出现什么的不确定性最大。只有一个符号的概率为1,其他为零时,熵最小,为0。

对连续情况熵定义为:

数学期望形式为H=ε[ln(1/p)]。在所有的连续密度函数中,如果均值μ和方差σ2都取已知的固定值,高斯分布使熵达到最大值H=0.5+log2(根号下2π乘以σ)。如果让方差趋近0,则高斯函数将趋近于狄拉克函数,此时熵最小为负无穷大。对于狄拉克函数的分布,几乎能确定每次出现的x的值就是a。 

对于随机变量x和任意函数f(·),有H(f(x))≤H(x),即对原始信号的任何处理都不能增加熵(信息量)。若f(x)是取常值的函数,则熵为0。离散分布熵的另一个重要性质:任意改变事件标记,不会影响这组符号的熵,因为熵只与符号出现概率有关,与符号本身无关。但对于连续随机变量则不一定成立。

2、相对熵

假设对同一离散变量x,有2种可能形式的离散概率分布p(x)和q(x)。为了衡量这两个分布之间的距离,定义相对熵(Kullback-Leiber距离):

连续情况下相对熵定义为:

相对熵不是一个真正的度量,因为把p和q互相交换时,DKL并不具有对称性

3、互信息

假设有两个不同变量概率分布,p(x)和q(x)。互信息指在获得一个变量的信息后,对另一个变量的不确定性的减少的量

 

信息论基础