首页 > 代码库 > 使用Python爬取糗事百科热门文章
使用Python爬取糗事百科热门文章
默认情况下取糗事百科热门文章只有35页,每页20条,根据下面代码可以一次性输出所有的文章,也可以选择一次输出一条信息,回车继续。不支持图片内容的显示,显示内容包括作者,热度(觉得好笑的人越多,热度越高),内容。从热度最高开始显示到最低。实现代码如下:
#!/usr/bin/python #coding:utf8 """ 爬取糗事百科热门文章 """ import urllib2 import re #模拟浏览器访问,否则无法访问 user_agent = r"Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.115 Safari/537.36" #匹配作者,内容和认为段子好笑的人数 regex1 = re.compile(r‘<h2>(.*?)</h2>.*?<div class="content">.*?<span>(.*?)</span>.*?<div class="stats">.*?<i class="number">(.*?)</i>‘, re.S) n = 1 for i in range(0,35): url = "https://www.qiushibaike.com/8hr/page/%s/" %(n) request = urllib2.Request(url, headers={"User-Agent":user_agent}) response = urllib2.urlopen(request) response = response.read() paragraph = regex1.findall(response) for i in paragraph: author = i[0] text = re.sub(‘<br/>‘, ‘\n‘, i[1]) count = i[2] print("作者:%s" %(author)) print("好笑:%s" %(count)) print("内容:%s" %(text)) print("\n") #注释下面三行就一次性显示所有文章 q = raw_input("退出请输入q/Q,继教看请直接回车:") if q == "q" or q == "Q": break if q == "q" or q == "Q": break n += 1
.
本文出自 “蓝色_风暴” 博客,请务必保留此出处http://270142877.blog.51cto.com/12869137/1951489
使用Python爬取糗事百科热门文章
声明:以上内容来自用户投稿及互联网公开渠道收集整理发布,本网站不拥有所有权,未作人工编辑处理,也不承担相关法律责任,若内容有误或涉及侵权可进行投诉: 投诉/举报 工作人员会在5个工作日内联系你,一经查实,本站将立刻删除涉嫌侵权内容。