极大似然估计(Maximum Likelihood)与无监督

2024-07-29 21:53:14 218人阅读

1. 极大似然与最大概率

　　因为不是科班出身，所以最初接触极大似然的时候，总是很奇怪为什么叫极大似然，而不直接叫做最大概率？

　　后来才知道极大似然是用来估计未知参数的，而最大概率的表述更适合于已知参数的情况下，求解出现最大概率的变量的，举例如下：

　　Max L(θ) = θ₁x₁+θ₂x₂+θ₃x₃

　　Max P(x) = θ₁x₁+θ₂x₂+θ₃x₃

　　Max L(θ)是拥有多组观测样本X时，估计θ参数的方法，而Max P(x)正好相反，是已知θ时，求解什么样的x出现会使得P最大。

2. 极大似然与无监督

　　弄懂了第一点后，再来看看极大似然与无监督有什么关系。

　　这里的无监督即指机器学习中的无监督学习方法，例如我们知道了一组变量X服从高斯分布(正态分布)，那么怎么预估高斯分布中的参数μ和σ呢？

　　例如：某学校学生的“身高”服从高斯分布，越矮越少，越高也越少，只有中间最多，还有考试成绩往往也符合高斯分布，中间居多，两边偏少，但是我们并不知道μ和σ是多少，也就没法构造出整体分布函数到底是怎么样的，那如果某个学生问班主任老师我的成绩大概排在全省的什么位置？

　　班主任只知道学校的样本，并不清楚全省所有人都考得怎么样，但是他知道无论是学校的成绩还是全省的成绩都符合高斯分布，现在怎么预估出这个高斯分布呢？

　　由于班主任老师是数学老师，他很快就想到了解决办法，他利用已有的样本X去预估高斯分布的参数μ和σ！

　　用的就是极大似然估计——Max L(θ)。

　　其实这就是求无监督机器学习方法的一种方式，假设我们的机器学习问题就是要学习考试分数的高斯分布函数的参数，而且我们只有变量即观测样本，而没有观测值——也就是代入变量到高斯分布里的结果，在这个例子里是一个概率值，这个概率值可以等同于学生成绩所处的分布位置。

　　总结以上，当我们只有部分样本的观测值，而没有标注结果，且知道假设分布函数的情况下，可以用极大似然估计的方式估计出在这组观测值下假设分布函数的最佳参数。