首页 > 代码库 > 机器学习笔记——贝叶斯学习

机器学习笔记——贝叶斯学习

概率

  理解概率最简单的方式就是把它们想像成韦恩图中的元素。首先你有一个包括所有可能输出(例如一个实验的)的全集,现在你对其中的一些子集感兴趣,即一些事件。假设我们在研究癌症,所以我们观察人们看他们是否患有癌症。在研究中,假设我们把所有参与者当成我们的全集,然后对任何一个个体来说都有两种可能的结论,患有或没有癌症。我们可以把我们的全集分成两个事件:事件"患有癌症的人"(表示为A),和"不患有癌症的人"(表示为~A)。我们可以构建一张如下的图:


 那么一个随机选择的人患有癌症的概率是多少呢?就是在A中的元素数量除以U(全集)。我们记A中元素的数量为|A|,并读作A的基数。定义A的概率,P(A),写作P(A) = |A|/|U|。

 由于A可以至多拥有与U一样的元素,概率P(A)至多为1。

 到现在还不错吧?好,让我们添加另一个事件。假设还有一个筛选测试,目的是测量别的什么。那个测试对一些人将是"阳性",对一些人将是"阴性"。如果我们把事件B定义为"测试中是阳性的人"。我们可以作出另一张图:


 那么对于一个随机选中的人,这个测试为”阳性“的概率是多少呢?将是B中元素的数量(B的基数,或|B|)除以U的元素数量,我把这个称为P(B),事件B的概率有了。

 P(B) = |B|/|U|。

 记住到目前为止,我们已经处理了两个独立的事件。我们把它们放在一起会发生什么。


 我们可以用同样的方法计算两个事件都发生的概率(AB是A∩B的缩写)。

 P(AB) = |AB|/|U|。

 这就是开始有意思的地方了。从上图中可以读到什么?

 我们在处理一个全集(所有人),事件A(患有癌症的人),和事件B(测试中为阳性的人)。

现在有了重叠,即事件AB,我们也可以读作"患有癌症并且测试中为阳性的人"。也有事件B-AB或"未患癌症并且测试结果为阳性的人",还有A-AB或"患有癌症并且测试结果为阴性的人"。 现在,我们要回答的问题是"假设对一个随机选中的人测试结果为阳性,这个人患有癌症的概率是多少?"。在我们的韦恩图中,可以翻译成"假设我们在B区域,我们在区域AB的概率是多少",或者用另一种方式表述:"如果我们把区域B当成我们的全集,A的概率是多少?"。表达式即为P(A|B),读作"给定B下A的概率"。那它应该是什么?好它应该是 P(A|B) = |AB|/|B|。

假设我们把分子分母同时除以|U|

P(A|B) = (|AB|/|U|)/(|B|/|U|),我们可以把前面的等式重写为:P(A|B)=P(AB)/P(B).

我们有效地完成了把全集从U(所有人)到B(测试为阳性的人)的改变,但是我们仍然需要处理U中定义的概率。


现在让我们来问一个相反的问题"假设一个随机算中的个体患有癌症(事件A),对此人测试为阳性(事件AB)的概率是多少?"。直观来看它就是:P(B|A)=P(AB)/P(A).

现在我们可以推导出贝叶斯公式,把上两个等式放在一起,我们得到:P(A|B)P(B)=P(B|A)P(A)。无论你从A或B的方向上看P(AB)都是一样的,最后推出P(A|B)=P(B|A)P(A)/P(B)。这就是贝叶斯公式。我发现韦恩图让我重新认识了贝叶斯公式,任何时候都不用记住它了。它也对其的应用变简单。

示例

下面的例子来自Yudowsky:

年龄为40岁的参与定期筛查的妇女中有1%患有乳腺癌。患乳腺癌的妇女中的乳房X光片为阳性的有80%。未患乳腺癌的妇女中9.6%也有阳性乳房X光片。在一次定期检查中,在这个年龄群体中的一位妇女的乳房X光片为阳性,她实际上得乳腺癌的概率是多少?

首先,让我们考虑患有癌症的妇女


现在加入乳房X光片为阳性的妇女,记住我们要覆盖事件A中80%的区域和事件A以外9.6%的区域。


从图中很明显。如果我们重新限定我们的全集为B(乳房X光片为阳性的妇女),实际上只有很小的概率得癌症。通过这篇文章,多数医生猜测问题的答案约为80%,从图中看很明显不可能!记住测试的功效从A中得到,"80%患乳腺癌的妇女也有阳性乳房X光片"。这可以解释为"限定全集为A,B的概率是多少?"或者用别的方式P(B|A)。

即使没有韦恩图,可视化图标可以帮助我们应用贝叶斯公式:

组中有1%的妇女患有乳腺癌->P(A)=0.1

那些妇女中80%有阳性乳房X光片,并且未患乳腺癌的妇女中9.6%也有阳性乳房X光片->P(B)=0.8P(A)+0.096(1-P(A))=0.008 + 0.09504 = 0.10304

我们可以从问题的描述中直接得到P(B|A),记住患有乳腺癌的妇女中80%有阳性乳房X光片->P(B|A)=0.8.

现在把这些值带入贝叶斯公式:

P(A|B)=0.8*0.01/0.10304.

答案是 0.0776 或约 7.8%的概率,即如果给定阳性乳房X光片则实质上患有乳腺癌的概率。 

(上面的部分翻译了这个原文:http://oscarbonilla.com/2009/05/visualizing-bayes-theorem/)

机器学习笔记——贝叶斯学习