首页 > 代码库 > 熵与条件熵
熵与条件熵
熵
熵是表示随机变量不确定性的度量,设X是一个取有限个值的离散随机变量,其概率分布为
则随机变量X的熵定义为 若对数以2为底或以e为底,这时熵的单位分别称为比特或纳特。熵只依赖与X的分布,而与X的取值无关,所以也可将X的熵记作。熵越大,随机变量的不确定性越大。
若一个随机变量只有两个值,那么当X的分别为为P(x1)=P(x2)=0.5的时候,熵最大,变量也最不确定。
条件熵
设有随机变量(X,Y),其联合概率分布为 条件熵H(Y|X)表示在已知随机变量X的条件下随机变量Y的不确定性。随机变量X给定的条件下随机变量Y的条件熵H(Y|X),定义为X给定条件下,Y的条件概率分布的熵对X的数学期望
这里,
这里注意,这个条件熵,不是指的,即不是指在给定某个数(某个变量为某个值)的情况下,另一个变量的熵是多少,变量的不确定性是多少?不是这样的,条件熵中X也是一个变量,意思是在一个变量X的条件下(变量X的每个值都会取),另一个变量Y熵对X的期望。
举个例子:
一颗小花开花或不开花是一个随机事件,用随机变量X表示。现有一些样本X={开 开 开 开 开 开 开 开 开 不 不 不 不 不 }
可以估计P(X=开)=9/14 P(X=不)=5/14
那么X的熵为-(9/14)log(9/14 ) -(5/14)log(5/14 )
现在还有一个变量时Y,是一个天气的变量(晴 阴 雨),且P(晴)=5/14 P(阴)=4/14 P(雨)=5/14,
并且我们有在天气的条件下,小花开花的情况(也就是按天气这个条件,对小花的开花情况分类):
我们也就有了在Y情况下,X的概率分布。于是,我们就有了H(Y|X)=
其实条件熵意思是按一个新的变量的每个值对原变量进行分类,比如上面这个题把开 不 按晴阴雨分成了三类,然后在每一个小类里面,都计算一个小熵,然后每一个小熵乘以各个类别的概率,然后求和。我们用另一个变量对原变量分类后,原变量的不确定性就会减小了,因为新增了Y的信息,可以感受一下。不确定程度减少了多少就是信息的增益。
熵与条件熵