首页 > 代码库 > 百度图片爬虫

百度图片爬虫

功能说明:依次输入keyword。開始页码,结束页码(每页6张图)

当中,因为设定了timeout和其它错误检測,所以每页不一定6张都能爬下来。

有需求的拿去爬图用吧,仅供交流參考。不要乱爬,以免百度专门封堵。想用的都用不了了。

以后假设有时间再用pyqt做成界面吧。

代码例如以下:

#!/usr/bin/env python
#! -*- coding: utf-8 -*-
import urllib,urllib2
import re
import time
#返回网页源码
def getHtml(url):
	# print 'Start Downloading Html Source Code'

	user_agent = 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)'
	headers = {'User-Agent' : user_agent }
	req = urllib2.Request(url,headers = headers)
	html = urllib2.urlopen(req)
	srcCode = html.read()
	# print srcCode
	return srcCode

'''''''''''''''''''''
# 下载网页中的图片
# srcCode : 输入的包括图片绝对路径(可下载链接)的网页源码
# page : 仅仅是用于给下载的图片命名用
'''''''''''''''''''''
def getImg(srcCode,page):
	#对网页中图片建立正则
	pattern = re.compile(r'<a href=http://www.mamicode.com/"(.*?)">

class="i".*?src=http://www.mamicode.com/".*?".*?

alt="百度图片" t=""/></a>') #图片完整路径存储为list imgSrcHtml = pattern.findall(srcCode) # print imgSrcHtml num = 0 + 6 * (page-1) # count = endPage - startPage # for x in xrange(1,count): for i in imgSrcHtml: # 补全链接,得到完整地址 i = 'http://image.baidu.com' + i print i imageSrc = http://www.mamicode.com/getHtml(i)>

</a>') # 层层进入。得到图片的链接 imageRealSrc = http://www.mamicode.com/imagePattern.findall(getHtml(i))>


就酱。

百度图片爬虫