首页 > 代码库 > python机器学习——分词
python机器学习——分词
使用jieba库进行分词
安装jieba就不说了,自行百度!
import jieba
将标题分词,并转为list
seg_list = list(jieba.cut(result.get("title"), cut_all=False))
所有标题使用空格连接,方便后面做自然语言处理
para = para + " ".join(seg_list)
将分词后的标题(使用空格分割的标题)放到一个list里面
summaryList.insert(0," ".join(seg_list))
统计词频
from nltk.tokenize import WordPunctTokenizerimport nltktokenizer = WordPunctTokenizer()#统计词频sentences = tokenizer.tokenize(para)#此处将para转为list(16进制字符)wordFreq=nltk.FreqDist(sentences)for i in wordFreq:print i,wordFreq[i]
python机器学习——分词
声明:以上内容来自用户投稿及互联网公开渠道收集整理发布,本网站不拥有所有权,未作人工编辑处理,也不承担相关法律责任,若内容有误或涉及侵权可进行投诉: 投诉/举报 工作人员会在5个工作日内联系你,一经查实,本站将立刻删除涉嫌侵权内容。