首页 > 代码库 > labeled LDA,Hierarchically Supervised LDA

labeled LDA,Hierarchically Supervised LDA

  原创内容,转载注明出处

 

 最近看了labeled LDA 和Hierarchically LDA,看之前一头雾水,想要查些介绍,可是发现这两个模型在其他博文里都只是简单的介绍,没有找到较为详细的介绍。所以想写这篇博文,希望对初学者有所帮助。如果有理解不到位的也希望得到大家的指正。

  这篇文章是建立在读者已经对LDA有了很好的理解之上的,如果还没有看过基础版LDA请自行查阅第一篇博文和参考文献。

  那么如果理解了基础版LDA,这两个改进版就不是什么大问题了。

  labeled LDA发表于2009年ACL,对于文档-主题分布增加了一个监督项。比如,已经知道一个文档的标签是(0,1,1,0),那么它的主题分布和标签一一对应,所以如果标签是四维,那么主题也有四个,和四个标签对应。那么在Gibbs Sampling的时候就单词只在这篇文章对应的主题中采样,从而得到最后的主题分布。例如以(0,1,1,0)为标签的文档对应的主题分布可能是(0,0.1234,0.7829,0)。技术分享

  如上图,为了保证在标签主题中采样,α和之前的LDA不同:技术分享,其中L为一个矩阵:例如上例,四个标签中第二个第三个属于当前文档,那么L为技术分享那么显然此时技术分享

 

  有了这些其余的就和LDA完全相同了,可以开始采样了~

  技术分享

  得到当前的文档主题分布和主题词汇分布后,对于新的文档进行训练是没有标签限制的,和LDA完全相同。

  Hierarchically LDA发表于2011年的NIPS。也是通过标签集合来限定主题的采样。

技术分享

   结构如图所示,β是全局的主题分布,θ是每篇文章的主题分布,φ是主题的词汇分布。η服从正态分布。y代表标签是否属于当前类别,+1是属于,-1是不属于。在树形层次结构中,只有父节点有一个标签时,子节点才能有这个标签,如果子节点有这个标签,那么父节点一定有这个标签。α‘是狄利克雷分布参数,β是狄利克雷分布,θ服从Dir(αβ),φ和LDA中的狄利克雷分布相同。a是一个辅助参数。根据已知的label和技术分享(是文章中某一主题的单词占所有主题的比例)来生成特定的条件标签的过程如下:

 

技术分享

采样的公式为:

技术分享

其他参数更新为:

技术分享

 

 技术分享

技术分享

技术分享

 

 

 

  

 

labeled LDA,Hierarchically Supervised LDA