首页 > 代码库 > 斯坦福公开课5:生成学习

斯坦福公开课5:生成学习

北京理工大学计算机专业2016级硕士在读,方向:Machine Learning,NLP,DM

2017/3/21 9:08:46

本讲大纲:

1.生成学习算法(Generative learning algorithm) 
2.高斯判别分析(GDA,Gaussian Discriminant Analysis) 
3.朴素贝叶斯(Naive Bayes) 
4.拉普拉斯平滑(Laplace smoothing)


生成学习

判别学习算法(discriminative learning algorithm):直接学习p(y|x)(比如说logistic回归)或者说是从输入直接映射到{0,1}.

生成学习算法(generative learning algorithm):p(x|y)p(y)进行建模。(p(y)不是很重要)

简单的来说,判别学习算法的模型是通过一条分隔线把两种类别区分开,而生成学习算法是对两种可能的结果分别进行建模,然后分别和输入进行比对,计算出相应的概率。

比如说良性肿瘤和恶性肿瘤的问题,对良性肿瘤建立model1(y=0),对恶性肿瘤建立model2(y=1),p(x|y=0)表示是良性肿瘤的概率,p(x|y=1)表示是恶性肿瘤的概率.

根据贝叶斯公式(Bayes rule)推导出y在给定x的概率为:技术分享

另见《生成学习与判别学习的区别》一文

高斯判别分析

GDA是要学习的第一个生成学习算法.

GDA的两个假设:

  • 假设输入特征x∈Rn,并且是连续值;
  • p(x|y)是多维正态分布(multivariate normal distribution);


1、多维正态分布
若x服从多维正态分布(也叫多维高斯分布),均值向(mean vector)技术分享,协方差矩阵(convariance matrix)技术分享,写成x~技术分享, 其概率密度函数为: 
技术分享 
技术分享表示行列式(determinant).

均值:技术分享 
协方差Cov(Z)=技术分享=技术分享 = ∑

高斯分布的一些例子: 
技术分享 
左图均值为零(2*1的零向量),协方差矩阵为单位矩阵I(2*2)(成为标准正态分布). 
中图协方差矩阵为0.6I, 
右图协方差矩阵为2I

技术分享 
均值为0,方差分别为: 
技术分享

可见增加矩阵对角元素的值,即变量间增加相关性,高斯曲面会沿z1=z2(两个水平轴)方向趋于扁平。其水平面投影图如下:

技术分享

即增加∑对角线的元素,图形会沿45°角,偏转成一个椭圆形状。

 

若∑对角线元素为负,图形如下:

技术分享

∑分别为:

技术分享

不同μ的图形如下:

技术分享

μ分别为:

技术分享

μ决定分布曲线中心的位置。

2、高斯判别分析模型 
技术分享 
写出概率分布: 
技术分享

模型的参数为φ,μ0,μ1,∑,对数似然性为: (生成学习考虑的是joint likelihood 联合似然,判别学习算法考虑conditional likelihood)
技术分享

求出最大似然估计为: (详细推导见http://www.cnblogs.com/jcchen1987/p/4424436.html  Σ的答案有误

技术分享

φ:训练样本中标签为1的样本所占的比例

μ0:分母为标签为0的样本数,分子是对标签为0的样本的x(i)求和,结合起来就是对对标签为0的样本的x(i)求均值,与高斯分布参数μ为均值的意义相符

μ1:与μ0同理,标签改为1

结果如图所示: 
技术分享

Predict:

预测结果应该是给定x的情况下最可能的y,等式左边的运算符argmax表示计算p(y|x)最大时的y值,预测公式如下:

技术分享

因为p(x)独立于y,所以可以忽略p(x)。

 

如果p(y)为均匀分布,即每种类型的概率都相同,那么也可以忽略p(y),要求的就是使p(x|y)最大的那个y。不过这种情况并不常见。


3、GDA和logistic回归的联系
P(y=1|x)看作x的函数,则有:
技术分享
其中θφ,∑,μ1,μ2的函数,这正是logistic回归的形式。
技术分享
4、使用生成学习算法的优缺点

推论1:

x|y 服从高斯分布  =>  p(y=1|x)是logistic函数

该推论在反方向不成立。


推论2:

x|y=1 ~ Poisson(λ1),x|y=0 ~ Poisson(λ0)  =>  p(y=1|x)是logistic函数


x|y=1 ~ Poisson(λ1)表示x|y=1服从参数为λ1泊松分布

 

推论3:

x|y=1 ~ ExpFamily(η1),x|y=0 ~ ExpFamily (η0)  =>  p(y=1|x)是logistic函数


推论2的推广,即x|y的分布属于指数分布族,均可推出结论。显示了logistic回归在建模假设选择方面的鲁棒性


优点:

  • 推论1反方向不成立,因为x|y服从高斯分布这个假设更强,GDA模型做出了一个更强的假设,所以,x|y服从或近似服从高斯分布,那么GDA会比logistic回归更好,因为它利用了更多关于数据的信息,即算法知道数据服从高斯分布。

 

缺点:

  • 如果不确定x|y的分布情况,那么判别算法logistic回归性能更好。例如,预先假设数据服从高斯分布,但是实际上数据服从泊松分布,根据推论2logistic回归仍能获得不错的效果。
  • 生成学习算法比判决学习算法需要更少的数据。如GDA的假设较强,所以用较少的数据能拟合出不错的模型。而logistic回归的假设较弱,对模型的假设更为健壮,拟合数据需要更多的样本。


朴素贝叶斯

学习的第二个生成模型方法

引例:垃圾邮件分类

实现一个垃圾邮件分类器,以邮件输入流作为输入,确定邮件是否为垃圾邮件。输出y{0,1}1为垃圾邮件,0为非垃圾邮件。

首先,要将邮件文本表示为一个输入向量x,设已知一个含有n个词的字典,那么向量x的第i个元素{0,1}表示字典中的第i个词是否出现在邮件中,x示例如下:

技术分享

要对p(x|y)建模,x是一个n维的{0,1}向量,假设n=50000,那么x2^50000种可能的值,一种方法是用多项式分布进行建模(伯努利分布对01建模,多项式分布对k个结果建模),这样就需要2^50000-1个参数,可见参数过多,下面介绍朴素贝叶斯的方法。


假设xi在给定y的时候是条件独立的,则x在给定y下的概率可简化为:(第二个=用到了朴素贝叶斯假设) 假设虽然有缺陷,但是实际效果很好。

技术分享

模型参数包括:

Φi|y=1 = p(xi=1|y=1)

Φi|y=0 = p(xi=1|y=0)

Φy = p(y=1)

 

联合似然性:

技术分享

 

求得参数结果:

技术分享


Φi|y=1的分子为标记为1的邮件中出现词j的邮件数目和,分母为垃圾邮件数,总体意义就是训练集中出现词j的垃圾邮件在垃圾邮件中的比例。

Φi|y=0就是出现词j的非垃圾邮件在非垃圾邮件中的比例。

Φy就是垃圾邮件在所有邮件中的比例。

求出上述参数,就知道了p(x|y)p(y),用伯努利分布对p(y)建模,用上式中p(xi|y)的乘积对p(x|y)建模,通过贝叶斯公式就可求得p(y|x)

可以得到:

技术分享

朴素贝叶斯的问题: 
假设在一封邮件中出现了一个以前邮件从来没有出现的词,在词典的位置是35000,那么得出的最大似然估计为: 

技术分享 
也即使说,在训练样本的垃圾邮件和非垃圾邮件中都没有见过的词,模型认为这个词在任何一封邮件出现的概率为0. 
假设说这封邮件是垃圾邮件的概率比较高,那么 
技术分享 
模型失灵.

在统计上来说,在你有限的训练集中没有见过就认为概率是0是不科学的.

Laplace平滑

根据极大似然估计,p(y=1) = #”1”s / (#”0”s + #”1”s),即y为1的概率是样本中1的数目在所有样本中的比例。Laplace平滑就是将分子分母的每一项都加1,,即:

p(y=1) = (#”1”s+1)  / (#”0”s+1 + #”1”s+1)

Generally:yk中可能的值

技术分享

对于朴素贝叶斯,得到的结果为:

                         技术分享


代码实践

GDA代码实例
训练数据:鸢尾花数据
  1. # -*- coding: utf-8 -*-
  2. from __future__ import division
  3. import numpy as np
  4. import matplotlib as mpl
  5. import matplotlib.pyplot as plt
  6. def GDA( X, y ):
  7. m , m0 , m1 = len(y) , len(y[y==0]) , len(y[y==1])
  8. phi = m0 / m
  9. u0 = np.sum( X[y==0] , axis=0 ) / m0
  10. u1 = np.sum( X[y==1] , axis=0 ) / m1
  11. sigma = np.zeros( (len(X[0]),len(X[0]) ) )
  12. for x , y in zip( X , y ):
  13. if y == 0:
  14. sigma += np.dot( np.transpose([x - u0]) , (x - u0).reshape(1,2) )
  15. else:
  16. sigma += np.dot( np.transpose([x - u1]) , (x - u1).reshape(1,2) )
  17. sigma /= m
  18. return ( phi , u0 , u1 , sigma )
  19. def predict( x , phi , u0 , u1 , sigma ):
  20. inv = np.linalg.inv(sigma)
  21. y_hat = []
  22. for case in x:
  23. p0 = np.dot( np.dot((case - u0) , inv ) , (case - u0).T ) * (1 - phi)
  24. p1 = np.dot( np.dot((case - u1) , inv ) , (case - u1).T ) * phi
  25. y_hat.append( 0 if p0 < p1 else 1 )
  26. return np.array(y_hat)
  27. df = np.loadtxt(r‘C:\Users\LoveDMR\Desktop\8.iris.data‘, delimiter=‘,‘ , converters = { 4: lambda t : {‘Iris-setosa‘:0,‘Iris-versicolor‘:1,‘Iris-virginica‘:2}[t] } );
  28. df = df[df[:,4] != 2] # 为了方便学习 ,只关心二分类问题
  29. #手工特征选择 2个(方便可视化 0-3)
  30. feature = ( 0 , 1 )
  31. C1 = df[df[:,4] == 0]
  32. C2 = df[df[:,4] == 1]
  33. X , y = np.split(df,(4,), axis=1)
  34. X = X[:,feature[0]:feature[1]+1] # 只取两个特征
  35. y = y[:,0]
  36. phi , u0 , u1 , sigma = GDA( X, y )
  37. # 特征分布情况
  38. plt.figure()
  39. x1_min , x1_max = X[:,0].min() , X[:,0].max()
  40. x2_min , x2_max = X[:,1].min() , X[:,1].max()
  41. t1 = np.linspace(x1_min,x1_max , 500)
  42. t2 = np.linspace(x2_min,x2_max , 500)
  43. x1 , x2 = np.meshgrid( t1 , t2 )
  44. x_test = np.stack((x1.flat,x2.flat),axis=1)
  45. y_hat = predict( x_test , phi , u0 , u1 , sigma )
  46. y_hat = y_hat.reshape(x1.shape)
  47. cm_light = mpl.colors.ListedColormap([‘#77E0A0‘, ‘#FF8080‘])
  48. plt.pcolormesh(x1,x2,y_hat,cmap=cm_light)
  49. plt.plot(C1[:,feature[0]],C1[:,feature[1]] , ‘bv‘)
  50. plt.plot(C2[:,feature[0]],C2[:,feature[1]],‘g*‘)
  51. plt.xlim(x1_min, x1_max)
  52. plt.ylim(x2_min, x2_max)
  53. plt.tight_layout()
  54. plt.show()
特征:花萼宽度+花萼长度(左图) |  花瓣宽度+花瓣长度(右图)
技术分享技术分享


补充:协方差计算公式与意义

http://blog.csdn.net/beechina/article/details/51074750

补充:样本方差公式中为什么要除以(n-1)而不是n呢?

样本方差与样本均值,都是随机变量,都有自己的分布,也都可能有自己的期望与方差。取分母n-1,可使样本方差的期望等于总体方差,即这种定义的样本方差是总体方差的无偏估计。 简单理解,因为算方差用到了均值,所以自由度就少了1,自然就是除以(n-1)了。
再不能理解的话,形象一点,对于样本方差来说,假如从总体中只取一个样本,即n=1,那么样本方差公式的分子分母都为0,方差完全不确定。这个好理解,因为样本方差是用来估计总体中个体之间的变化大小,只拿到一个个体,当然完全看不出变化大小。反之,如果公式的分母不是n-1而是n,计算出的方差就是0——这是不合理的,因为不能只看到一个个体就断定总体的个体之间变化大小为0。

知乎 https://www.zhihu.com/question/20099757

补充:贝叶斯网络

斯坦福公开课5:生成学习