首页 > 代码库 > 我的第一个python爬虫程序
我的第一个python爬虫程序
程序用来爬取糗事百科上的图片的,程序设有超时功能,具有异常处理能力
下面直接上源码:
#-*-coding:utf-8-*- ‘‘‘ Created on 2016年10月20日 @author: audi ‘‘‘ import urllib2 import re from bs4 import BeautifulSoup import sys reload(sys) sys.setdefaultencoding(‘utf-8‘) count = 0 path = "pic/tupian" headers = { ‘User-Agent‘:‘Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US; rv:1.9.1.6) Gecko/20091201 Firefox/3.5.6‘ } for x in range(1,10): temp_url = "http://www.qiushibaike.com/imgrank/page/%d"%x req = urllib2.Request( url = temp_url, headers = headers ) try: data = http://www.mamicode.com/urllib2.urlopen(req,timeout=10).read()"打开页面链接超时!!!!" continue else: print "打开页面成功,开始解析数据。。" soup=BeautifulSoup(data,‘html.parser‘,from_encoding=‘utf-8‘) # 图片链接的div标签格式 # <div class="thumb"> # <a href="http://www.mamicode.com/article/117795261" target="_blank"> # <img src="http://pic.qiushibaike.com/system/pictures/11779/117795261/medium/app117795261.jpg" alt="我想变成妈妈的眼睛,这样我就可以一直粘在妈妈的身上"> # </a> # </div> # 查询所有图片所在的div标签内容 content = soup.find_all(‘div‘,class_ = ‘thumb‘) #(jpg|JPG|jpeg) # links集合存放最终的图片的链接 links = set() # 再次过滤以获得图片的链接 for i in content: temp_link = i.find_all(‘a‘,href=http://www.mamicode.com/re.compile(r"/article/\d")) temp_linnk = temp_link[0].find(‘img‘,src=http://www.mamicode.com/re.compile(r"\.(jpg|JPG|jpeg)")) temp_linnk = temp_linnk[‘src‘] links.add(temp_linnk) for link in links: try: picData = http://www.mamicode.com/urllib2.urlopen(link,timeout=3).read()"当前子链接打开失败。。" continue else: file_name = path + str(count) + ‘.jpg‘ count +=1 f = file(file_name,"wb") f.write(picData) f.close() print "爬取第" + str(count) + "个链接" + link print "恭喜你,爬取图片结束!!!!!!!!!!!!"
我的第一个python爬虫程序
声明:以上内容来自用户投稿及互联网公开渠道收集整理发布,本网站不拥有所有权,未作人工编辑处理,也不承担相关法律责任,若内容有误或涉及侵权可进行投诉: 投诉/举报 工作人员会在5个工作日内联系你,一经查实,本站将立刻删除涉嫌侵权内容。