首页 > 代码库 > topic model

topic model

0、基石——贝叶斯推断

计算后验概率即为我们对参数的估计:

NewImage

其中:

? ??NewImage——输入数据

? ??NewImage?——待估计的参数

? ??NewImage——似然分布

? ??NewImage?——参数的先验分布

?

对新样本的预测:我们要估计NewImage的概率

NewImage

1、常用的概率分布

Dirichlet Distribution

NewImage

2、文本建模

2.1 基本模型——unigram model

最基本的一种文本模型。

我们做这样的假设:语料库是从词表NewImage中独立的抽取的NewImage个。有似然方程

NewImage其中NewImage是term[t]出现的次数。我们的目标是估计NewImage,根据贝叶斯推断的方法,我们需要引入NewImage的一个先验分布。

NewImage计算后验概率

NewImage?

?

?

?

?

?