首页 > 代码库 > TopicModel - LSA(隐性语义分析)的早期方法SVD

TopicModel - LSA(隐性语义分析)的早期方法SVD

http://blog.csdn.net/pipisorry/article/details/42560331

LSA and SVD

LSA(隐性语义分析)的目的是要从文本中发现隐含的语义维度-即“Topic”或者“Concept”。我们知道,在文档的空间向量模型(VSM)中,文档被表示成由特征词出现概率组成的多维向量,这种方法的好处是可以将query和文档转化成同一空间下的向量计算相似度,可以对不同词项赋予不同的权重,在文本检索、分类、聚类问题中都得到了广泛应用,在基于贝叶斯算法及KNN算法的newsgroup18828文本分类器的JAVA实现和基于Kmeans算法、MBSAS算法及DBSCAN算法的newsgroup18828文本聚类器的JAVA实现系列文章中的分类聚类算法大多都是采用向量空间模型。然而,向量空间模型没有能力处理一词多义和一义多词问题,例如同义词也分别被表示成独立的一维,计算向量的余弦相似度时会低估用户期望的相似度;而某个词项有多个词义时,始终对应同一维度,因此计算的结果会高估用户期望的相似度。


LSA方法的引入就可以减轻类似的问题。基于SVD分解,我们可以构造一个原始向量矩阵的一个低秩逼近矩阵,具体的做法是将词项文档矩阵做SVD分解


技术分享


  其中技术分享是以词项(terms)为行, 文档(documents)为列做一个大矩阵. 设一共有t行d列,  矩阵的元素为词项的tf-idf值。然后技术分享的r个对角元素的前k个保留(最大的k个保留), 后面最小的r-k个奇异值置0, 得到技术分享;最后计算一个近似的分解矩阵


技术分享


技术分享在最小二乘意义下是技术分享的最佳逼近。由于技术分享最多包含k个非零元素,所以技术分享的秩不超过k。通过在SVD分解近似,我们将原始的向量转化成一个低维隐含语义空间中,起到了特征降维的作用。每个奇异值对应的是每个“语义”维度的权重,将不太重要的权重置为0,只保留最重要的维度信息,去掉一些信息“nosie”,因而可以得到文档的一种更优表示形式。将SVD分解降维应用到文档聚类的JAVA实现可参见此文。


SVD分解说明图例:

技术分享

例如Data是32*32图像矩阵,经过SVD分解后

U\VT都是3 2*2 的矩阵,有两个奇异值。因此总数字数目是64+64+2=130。

和原数目1024=32*32相比,我们获得了几乎10倍的压缩比。

【Peter Harrington - Machine Learning in Action】


IIR中给出的一个SVD降维的实例如下:

技术分享技术分享

左边是原始矩阵的SVD分解,右边是只保留权重最大2维,将原始矩阵降到2维后的情况。


PS:
尽管基于SVD的LSA取得了一定的成功,但是其缺乏严谨的数理统计基础,而且SVD分解非常耗时

Hofmann在SIGIR’99上提出了基于概率统计的PLSA模型,并且用EM算法学习模型参数。


from:http://blog.csdn.net/pipisorry/article/details/42560331

ref:http://www.52nlp.cn/%E6%A6%82%E7%8E%87%E8%AF%AD%E8%A8%80%E6%A8%A1%E5%9E%8B%E5%8F%8A%E5%85%B6%E5%8F%98%E5%BD%A2%E7%B3%BB%E5%88%971-plsa%E5%8F%8Aem%E7%AE%97%E6%B3%95


TopicModel - LSA(隐性语义分析)的早期方法SVD