python爬虫——京东评论、jieba分词、wordcloud词云统计

首页 > 代码库 > python爬虫——京东评论、jieba分词、wordcloud词云统计

python爬虫——京东评论、jieba分词、wordcloud词云统计

2024-11-19 23:06:02 203人阅读

接上一章，抓取京东评论区内容。

url=‘https://club.jd.com/comment/productPageComments.action?callback=fetchJSON_comment98vv399&productId=4560435&score=0&sortType=5&page=0&pageSize=10&isShadowSku=0&fold=1’

重点是productId——产品id、page——页码、pageSize：指定每一页展示多少评论

#coding：utf-8
import requests
import json,time

def get_detail(url):
    wbdata = requests.get(url).text
    wbdata = wbdata[25:-2]

    data = json.loads(wbdata)
    news = data[‘comments‘]

    for n in news:
        title = n[‘content‘]    
        print title
        print ‘-‘*20


        
for i in range(30):
    url = ‘https://club.jd.com/comment/productPageComments.action?callback=fetchJSON_comment98vv399&productId=4560435&score=0&sortType=5&page=‘ +str(i) +‘&pageSize=10&isShadowSku=0&fold=1‘
#url = ‘https://club.jd.com/comment/productPageComments.action?callback=fetchJSON_comment98vv399&productId=4560435&score=0&sortType=5&page=0&pageSize=10&isShadowSku=0&fold=1‘
    if requests.get(url).status_code == 200:
        get_detail(url)
        time.sleep(10)
        print i

代码类似，不详细说明（get、json、数据处理）。

加入time.sleep（10）防止ip被禁。

结果如下：

技术分享

----------------------------------------------------------

想比较直观的显示评论重点，因此加入jieba分词还有wordcloud词云（没有库的，通过pip install jieba）

import matplotlib.pyplot as plt
from wordcloud import WordCloud
import jieba,os


text_from_file_with_apath = open(‘sss.txt‘).read()
 
wordlist_after_jieba = jieba.cut(text_from_file_with_apath, cut_all = True)
wl_space_split = " ".join(wordlist_after_jieba)
 
my_wordcloud = WordCloud().generate(wl_space_split)
 
plt.imshow(my_wordcloud)
plt.axis("off")
plt.show()

简陋版词云效果。

技术分享

wordcloud 默认使用了DroidSansMono.ttf 字体库，改一下换成一个支持中文的ttf 字库，重新运行一下这十行代码，就可以了。

wordcloud词云默认不支持中文，可能会显示还多矩形框。

解决办法——改一下换成一个支持中文的ttf 字库

Python27\Lib\site-packages\wordcloud.py 中的 ---- DroidSansMono.ttf 替换修改为 simfang.ttf

在线词云生成网页：https://wordart.com/create

python爬虫——京东评论、jieba分词、wordcloud词云统计

声明：以上内容来自用户投稿及互联网公开渠道收集整理发布，本网站不拥有所有权，未作人工编辑处理，也不承担相关法律责任，若内容有误或涉及侵权可进行投诉：投诉/举报工作人员会在5个工作日内联系你，一经查实，本站将立刻删除涉嫌侵权内容。

联系
我们

首页 > 代码库 > python爬虫——京东评论、jieba分词、wordcloud词云统计

python爬虫——京东评论、jieba分词、wordcloud词云统计

看完仍有疑问？有类似问题直接问程序猿