首页 > 代码库 > python爬爬(网友提供学习)

python爬爬(网友提供学习)

import urllib2,urllib,os,re

def ZZ(url):

     pathw=os.getcwd()

     #图片和标题目录

     imagetitleregion=r‘<div class="large-Imgs">\r\n  <img src="http://www.mamicode.com/(.+?)" alt="(.+?)">‘

     imagetitleRe=re.compile(imagetitleregion)

 

     #提取文件

     downregion=u‘<a href="http://www.mamicode.com/(.+?)"target="_blank" class="button btn-down" title="免费下载"><i class="icon-down icon-white"></i><i class="icon-white icon-down-transiton"></i>免费下载</a>‘

     downRe=re.compile(downregion)

 

     for i in range(5,5365+1):

         try:

            response=urllib2.urlopen(url+str(i)+‘.shtml‘)

            html=response.read()

            print u‘爬‘+str(i)+u‘页面数据‘

 

             #提取图片和标题

            m=imagetitleRe.findall(html+re.S)

 

            imageurl=m[0][0].decode(‘utf-8‘)

            title=m[0][1].decode(‘utf-8‘)

            path=pathw+‘\\‘+title+‘_‘+str(i)

            if not (os.path.isdir(path)):

                os.mkdir(path)

            if imageurl!=u‘佚名‘:

                urllib.urlretrieve(‘http://www.cssmoban.com‘+imageurl,path+‘\\‘|str(i)+‘.jpg‘)

            #提取文件

                m=downRe.findall(html)

 

                urllib.urlretrieve(m[0],path+‘\\‘+str(i)+‘.rar‘)

                print u‘爬‘+str(i)+u‘页面数据完成‘

         except Exception as s :

             print s,u‘失败‘

url=raw_input(‘Url:‘)

ZZ(url)

python爬爬(网友提供学习)