R文本挖掘之jiebaR包

首页 > 代码库 > R文本挖掘之jiebaR包

2024-09-02 06:45:10 218人阅读

library(jiebaRD)
library(jiebaR) ##调入分词的库
cutter <- worker()
mydata =http://www.mamicode.com/read.csv(file.choose(),fileEncoding = ‘UTF-8‘,stringsAsFactors = FALSE,header=FALSE) ##读入数据(特别注意，read.csv竟然可以读取txt的文本)

content <-as.character(mydata) #将数据字符串化
segWords <- segment(content,cutter)

#读取停止词

#删除停用词（就是删除一些介词、叹词之类的词语，这些词语本身没多大分析意义，但出现的频率却很高，比如"的、地、得、啊、嗯、呢、了、还、于是、那么、然后"等等。前提是必须要有一个停用词库，网上搜索即可下载，也是一个txt的文本文件，每行一个词。网上有两种版本，一种是500多个词的，一种是1000多个词的）
f<- read.table(file = file.choose(), stringsAsFactors = FALSE) #stopword.txt
stopwords <- c(NULL) #定义一个空对象stopwords，并赋值为“空”
for(i in 1:length(f)){ #for循环，length（f）求得停止词库词条个数。
stopwords[i] <- f[i] #遍历停止词库，将第【i】个停止词赋值给stopwords
}

segWords <- gsub("[0-9a-zA-Z]+?","",segWords) #gsub用来去掉segWord文本中的数字，英文，但生成了空格，""产生了空格

library(stringr) #载入stringr包，仅用来去掉文本中的空格
segWords <- str_trim(segWords) #去掉segwords中的空格
txt.asvector <- unlist(segWords) #将segwords向量化
tableWord <- table(txt.asvector) #将txt.asvector生成为列联表
Wordresult<- tableWord[order(-tableWord)] #将tableword降序排列，从多到少排序

library(wordcloud2) #调入绘制词云的库
wordcloud2(Wordresult[1:100])

技术分享

R文本挖掘之jiebaR包

声明：以上内容来自用户投稿及互联网公开渠道收集整理发布，本网站不拥有所有权，未作人工编辑处理，也不承担相关法律责任，若内容有误或涉及侵权可进行投诉：投诉/举报工作人员会在5个工作日内联系你，一经查实，本站将立刻删除涉嫌侵权内容。

联系
我们

首页 > 代码库 > R文本挖掘之jiebaR包

R文本挖掘之jiebaR包

看完仍有疑问？有类似问题直接问程序猿