首页 > 代码库 > 一文看清贝叶斯的本质
一文看清贝叶斯的本质
透过现象看本质: 简单说明一下本质与现象的概念。本质与现象是一对哲学范畴。世界上的任何事物都是本质和现象的对立统一,透过现象把握其本质是科学的基本任务之一。本质是事物的根本特征,是同类现象中一般的或共同的东西;现象是事物本质的外部表现,是局部的、个别的。不同的现象可以具有共同的本质,同一本质可以表现为千差万别的现象。 本质是事物的根本特征,是区别其他事物的类属,可以设为wi(i=1,2,3,...即所有存在的类属);现象是事物本质的外部表现,表现为各种属性,某一个事物的属性可以设为X(X为属性向量)。透过现象得知本质其实就是一种映射关系f: X->wi。下面讲解如何利用贝叶斯公式来进行透过现象看本质。给定某一事物,根据大千世界各种类别所占数量的比重,来确定各种类的先验概率P(wi),结合各种类别下对其属性现象进行频率的统计,得出发生的概率,即其似然度P(X|wi),然后根据贝叶斯公式计算后验概率P(wi|X)=P(X|wi)*P(wi)/P(X),由于P(X)是一个常数,故可以省略,即P(wi|X)=P(X|wi)*P(wi),该事物所属类别为其后验概率的最大值,即vNB=argmax P(X|wi)*P(wi).这就是贝叶斯推理的逻辑方式。比如在一个班级中,抽样一人身高体重<173,64>,然后判断此人是男是女,于是我们先计算班级的男女比例是多少,得出P(男)和P(女),然后统计男女各性别下身高体重<173,64>的情况,即P((173,64)|男)和P((173,64)|女),最后根据贝叶斯公式计算后验概率P(男|(173,64))=P((173,64)|男)*P(男) 和P(女|(173,64))=P((173,64)|女)*P(女),如果这个班级男女比例相同,则只要比较P((173,64)|男)和P((173,64)|女)即可,根据常识显然P((173,64)|男)>P((173,64)|女)(当然要精确的知道概率值,需要知道其分布,求出概率密度函数),即男的身高体重为<173,64>要比女的身高体重为<173,64>的概率要高,故进行判断此人为男生。 贝叶斯推理是根据后验概率P(w1|X),P(w2|X),P(w3|X),......的最大值来判定所属类别的。这种推理方式其实和我们日常的思考推理方式很类似。比如我们从小到大的日常学习,把每一章节的内容看作一类的话,那么我们在学习的过程中其实就是在某个类别下进行概念学习、推理、逻辑思维活动的形式方法即P(X|wi),这里的X就表示概念学习、推理、逻辑思维活动了。那么随着课程学习的深入,我们得到各种知识类别下的思维形式方法P(X|w1),P(X|w2),...。讲到这那么P(wi|X)是什么呢,这就是给你的各种题型、各种方法等逻辑片段来让你确定考察你的是什么类别内容,当然实际上给出的X是比较复杂,wi也是由多种类别杂合在一起的。如果知道考察你的是什么类别的内容,那么你就很容易根据那一章节类别的内容来解题了,或者是你自己思维逻辑上归纳的此种内容题型给出的逻辑描述对应的方法推理。聪明的你也许发现了P(wi|X)越大,你找到其问题的考察内容本质就越强,你的解决问题的能力就越强。那么你就会想怎么提高P(wi|X)呢,答案是其实就是不断复习回顾,不断归纳总结,建立知识体系,建立逻辑方法体系。 侦探的逻辑推理过程也基本如此,根据各种线索证据X来,判断犯案者的行为wi,根据各种留下的痕迹,脚印等X来推测身高wi,等等。所谓的侦探破案经验就是各种P(X|wi),然后根据后验概率P(wi|X)=P(X|wi)*P(wi)来判断推理犯案者各种行为状态等wi。 经常在网上看到争论,学历、文化程度、专业背景、家庭背景等来判断一个人能力、人品什么的。其实也可以用后验概率来判别,虽说学历高的能力不一定强,但是学历高的人中能力强的概率大,即置信度大。例如,我们判断学历高是不是代表一个以后成功几率高,通常是统计已经成功的人士学历的高低占有比例的大小来判定,如果成功人士中学历高的多,我们就可以说学历高的以后成功的可能性大,这里就是我们用似然度P(学历高|成功)与P(学历低|成功)的大小来判定P(成功|学历高)与(成功|学历低)的大小。当然这里隐含着大样本下事件发生的频率【频率=频数/样本总量】代替个别事件发生的概率(参考大数定理)。总之举出个别反例是不足以否定一般规律的。 若贝叶斯公式中的某一个值P(wi|X)为100%,那么可以认为X是wi的充分条件,即X->wi。 贝叶斯公式即展现了一种逻辑推理方法,在观察到的线索下推断出发生的某种情况。若X=<a1,a2,...,an>,你根据个别的属性ai、aj来推断wi,这就是掌握信息不全、了解不够而产生的片面认识,但是另一方面,通过分析得出ai、aj为所有X的中与wi形成映射关系影响最大,这就是抓住主要矛盾、忽略次要矛盾看问题、抓住了问题的本质特征来推断其内在本质。 总而言之,贝叶斯方法就是根据新样本中的特征情况来将其归类到各类下呈现出此种特征规律比较明显的类,通过现像中的各种线索来将其决断为各种情况下出现这些线索特征的最高的那种情况。 本文来自: 人
一文看清贝叶斯的本质