首页 > 代码库 > 概率图模型学习笔记(二)贝叶斯网络-语义学与因子分解

概率图模型学习笔记(二)贝叶斯网络-语义学与因子分解

概率分布(Distributions)

如图1所示,这是最简单的联合分布案例,姑且称之为学生模型。


图1


其中包含3个变量,分别是:I(学生智力,有0和1两个状态)、D(试卷难度,有0和1两个状态)、G(成绩等级,有1、2、3三个状态)。

表中就是概率的联合分布了,表中随便去掉所有包含某个值的行,就能对分布表进行缩减。

例如可以去掉所有G不为1的行,这样就只剩下了1、4、7、10行,这样他们的概率之和就不为1了,所以可以重新标准化(Renormalization)。如图2所示。


图2


反之也可以把所有含有某个值得行相加,就是边缘化(Marginalization),如图3所示。

图3 


条件概率分布(Conditional ProbabilityDistribution, CPD)

已知学生的智力和试卷难度,学生得分的分布就是条件概率。如图4所示。


图4

 

因子(Factors)

因子是随机变量的函数。

因子是处理概率分布的的基本手段。

因子是高维空间中用以定义概率分布的基本单元。


因子可以相乘(图5)、边缘化(图6)以及缩减(图7)。


图5



图6



图7

 

前面提到的学生模型,其条件概率分布可以画在一张图里面,如图8.

每个节点代表一个因子,其中有些CPD已经蜕化成非条件概率了。

图8 


贝叶斯网络的链式法则(Chain Rule)

如图9所示。概率分布由因子的积来定义。


图9


例如


因此,通过链式法则,贝叶斯网络能够表示联合概率分布:


 

贝叶斯网络的重要性质是概率和为1


 

一个简单的概率图是血型模型

其中G指基因型,B指血型。可以看到血型只由自己的基因型决定,而基因型则由父母两人的基因型决定。如图10.


图10