写作目的

最近由于研究需要，使用R语言对文本进行了主题发现，下面对具体过程进行记录。

步骤一：读取文本并进行预处理

本实验中主要对从SCI引文数据库中关于bigdata的索引记录进行分析，文件名为download_2.txt 目录为c:\\data\\,具体代码为：

#文件路径textfile<-"C:\\data\\download_1.txt"#按行读取该文本到变量bigdatabigdata<-readLines(textfile)#使用正则表达式对记录中的摘要进行提取doc<-grep("^AB.*?",bigdata)#删除文件开头的AB 字符，得到摘要列表doc<-sub("^AB ","",doc)

步骤二：使用tm包建立DocumentTermMatrix矩阵

将摘要信息读取doc变量后，接下来就需要使用tm包对文本进行处理了.

#加载tm包library(tm)#建立语料库doc.vec<-VectorSource(doc)doc.corpus<-Corpus(doc.vec)#进行预处理doc.corpus<-tm_map(doc.corpus,tolower)doc.corpus<-tm_map(doc.corpus,removePunctuation)doc.corpus<-tm_map(doc.corpus,removeNumbers)doc.corpus<-tm_map(doc.corpus,removeWords, stopwords("english"))#加载SnowballC包library(SnowballC)#继续进行预处理doc.corpus <- tm_map(doc.corpus, stemDocument)doc.corpus <- tm_map(doc.corpus, stripWhitespace)#建立TermDocumentMatrixTDM <- TermDocumentMatrix(doc.corpus)

步骤三：使用wordcloud查看词语分布情况

library(wordcloud)m <- as.matrix(TDM)v <- sort(rowSums(m),decreasing=TRUE)d <- data.frame(word = names(v),freq=v)wordcloud(d$word,d$freq,c(8,.3),2)

经过上述步骤后，可以得到该语料的词云图如下

步骤四：使用topicmodels包对文本进行主题挖掘

未完待续......

使用R语言进行主题发现（一）

声明：以上内容来自用户投稿及互联网公开渠道收集整理发布，本网站不拥有所有权，未作人工编辑处理，也不承担相关法律责任，若内容有误或涉及侵权可进行投诉：投诉/举报工作人员会在5个工作日内联系你，一经查实，本站将立刻删除涉嫌侵权内容。

联系
我们