首页 > 代码库 > 百度图片爬虫
百度图片爬虫
功能说明:依次输入keyword。開始页码,结束页码(每页6张图)
当中,因为设定了timeout和其它错误检測,所以每页不一定6张都能爬下来。
有需求的拿去爬图用吧,仅供交流參考。不要乱爬,以免百度专门封堵。想用的都用不了了。
以后假设有时间再用pyqt做成界面吧。
代码例如以下:
#!/usr/bin/env python #! -*- coding: utf-8 -*- import urllib,urllib2 import re import time #返回网页源码 def getHtml(url): # print 'Start Downloading Html Source Code' user_agent = 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)' headers = {'User-Agent' : user_agent } req = urllib2.Request(url,headers = headers) html = urllib2.urlopen(req) srcCode = html.read() # print srcCode return srcCode ''''''''''''''''''''' # 下载网页中的图片 # srcCode : 输入的包括图片绝对路径(可下载链接)的网页源码 # page : 仅仅是用于给下载的图片命名用 ''''''''''''''''''''' def getImg(srcCode,page): #对网页中图片建立正则 pattern = re.compile(r'<a href=http://www.mamicode.com/"(.*?)">class="i".*?src=http://www.mamicode.com/".*?".*?
alt="百度图片" t=""/></a>') #图片完整路径存储为list imgSrcHtml = pattern.findall(srcCode) # print imgSrcHtml num = 0 + 6 * (page-1) # count = endPage - startPage # for x in xrange(1,count): for i in imgSrcHtml: # 补全链接,得到完整地址 i = 'http://image.baidu.com' + i print i imageSrc = http://www.mamicode.com/getHtml(i)>
</a>') # 层层进入。得到图片的链接 imageRealSrc = http://www.mamicode.com/imagePattern.findall(getHtml(i))>
就酱。
百度图片爬虫
声明:以上内容来自用户投稿及互联网公开渠道收集整理发布,本网站不拥有所有权,未作人工编辑处理,也不承担相关法律责任,若内容有误或涉及侵权可进行投诉: 投诉/举报 工作人员会在5个工作日内联系你,一经查实,本站将立刻删除涉嫌侵权内容。