python机器学习——分词

首页 > 代码库 > python机器学习——分词

2024-09-29 16:59:02 218人阅读

使用jieba库进行分词

安装jieba就不说了，自行百度！

import jieba

将标题分词，并转为list

seg_list = list(jieba.cut(result.get("title"), cut_all=False))

所有标题使用空格连接，方便后面做自然语言处理

para = para + " ".join(seg_list)

将分词后的标题（使用空格分割的标题）放到一个list里面

summaryList.insert(0," ".join(seg_list))

统计词频

from nltk.tokenize import WordPunctTokenizerimport nltktokenizer = WordPunctTokenizer()#统计词频sentences = tokenizer.tokenize(para)#此处将para转为list（16进制字符）wordFreq=nltk.FreqDist(sentences)for i in wordFreq:print i,wordFreq[i]

python机器学习——分词

声明：以上内容来自用户投稿及互联网公开渠道收集整理发布，本网站不拥有所有权，未作人工编辑处理，也不承担相关法律责任，若内容有误或涉及侵权可进行投诉：投诉/举报工作人员会在5个工作日内联系你，一经查实，本站将立刻删除涉嫌侵权内容。

联系
我们

首页 > 代码库 > python机器学习——分词

python机器学习——分词

看完仍有疑问？有类似问题直接问程序猿