利用Mallet工具自动挖掘文本Topic

首页 > 代码库 > 利用Mallet工具自动挖掘文本Topic

利用Mallet工具自动挖掘文本Topic

2024-10-29 05:42:02 213人阅读

LDA算法（Latent Dirichlet allocation）是Blei，Andrew NG，Jordan等在2003年左右发表的算法，主要是以一系列单词为输入，以一系列Topic单词作为输出。该算法不考虑单词之间的顺序关系，衍生出了很多以LDA为基础的算法。

对于小的单独的文本，可以使用在线工具Voyant：http://voyant-tools.org/，得到一张包含Topic的图片。

多种开源工具实现了LDA算法，如 Stanford Topic Modeling Toolbox（http://nlp.stanford.edu/software/tmt/tmt-0.4/）和Mallet（http://mallet.cs.umass.edu/download.php）。

Mallet的下载与安装：

http://mallet.cs.umass.edu/download.php

建议从github上clone，自行编译。

Step1:使用Mallet生成某个文件的topic的时候，需要将该文件的格式转化成mallet格式，使用下面的命令，所得的mallet文件是下一步的输入：

　　bin/mallet import-dir --input path/to/the/dir/of/your/target/txt/file --output outputfile.mallet --keep-sequence --remove-stopwords

Step2:利用上面的结果，生成topic单词，及每个单词相关的单词：

　　bin/mallet train-topics --input outputfile.mallet --num-topics 20 --output-state topic-state.gz --output-topic-keys topic_file_keys.txt --output-doc-topics topic_file_topic.txt

上面的命令会生成20个topic单词，并且找出每个topic单词相关的单词，结果保存在topic_file_keys.txt中，topic_file_topic.txt中保存了各topic单词的权重。

利用Mallet工具自动挖掘文本Topic

声明：以上内容来自用户投稿及互联网公开渠道收集整理发布，本网站不拥有所有权，未作人工编辑处理，也不承担相关法律责任，若内容有误或涉及侵权可进行投诉：投诉/举报工作人员会在5个工作日内联系你，一经查实，本站将立刻删除涉嫌侵权内容。

联系
我们

首页 > 代码库 > 利用Mallet工具自动挖掘文本Topic

利用Mallet工具自动挖掘文本Topic

看完仍有疑问？有类似问题直接问程序猿