【Pyton】【小甲鱼】爬虫4-XXOO

首页 > 代码库 > 【Pyton】【小甲鱼】爬虫4-XXOO

【Pyton】【小甲鱼】爬虫4-XXOO

2024-09-13 22:54:09 217人阅读

 1 import urllib.request
 2 import os
 3 
 4 def open_url(url):
 5     req=urllib.request.Request(url)
 6     req.add_header(‘User-Agent‘,‘Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/50.0.2661.94 Safari/537.36‘)
 7     response=urllib.request.urlopen(url)
 8     html=response.read()
 9 
10     print(url)
11     return html
12 
13 def get_page(url):
14     html=open_url(url).decode(‘utf-8‘)
15     
16     a=html.find(‘current-comment-page‘)+23 #23代表偏移
17     b=html.find(‘]‘,a) #a代表起始位置
18     return html[a:b]
19     
20 def find_imgs(url):
21     html=open_url(url).decode(‘utf-8‘)
22     img_addrs=[]
23    #图片的左右边界
24     a=html.find(‘img src=http://www.mamicode.com/‘)
25     while a!=-1:
26         b=html.find(‘.jpg‘,a,a+255)
27         if b!=-1:
28             img_addrs.append(html[a+9:b+4])
29         else:
30             b=a+9
31         a=html.find(‘img src=http://www.mamicode.com/‘,b)
32    
33     for each in img_addrs:
34         print(each)
35     return img_addrs
36 
37 def save_imgs(folder,img_addrs):
38     for each in img_addrs:
39         filename=each.split(‘/‘)[-1]
40         with open(filename,‘wb‘)as f:
41             img=open_url(each)
42             f.write(img)
43 
44 def download_mm(folder=‘OOXX‘,pages=10):
45     os.mkdir(folder)
46     os.chdir(folder)
47 
48     url="http://jandan.net/ooxx/"
49     page_num=int(get_page(url))
50 
51     for i in range(pages):
52         page_num-=i
53         page_url=url+‘page-‘+str(page_num)+‘#comments‘
54         img_addrs=str(‘http‘)+find_imgs(page_url)
55         save_imgs(folder,img_addrs)
56 
57 if __name__==‘__main__‘:
58     download_mm()

【Pyton】【小甲鱼】爬虫4-XXOO

声明：以上内容来自用户投稿及互联网公开渠道收集整理发布，本网站不拥有所有权，未作人工编辑处理，也不承担相关法律责任，若内容有误或涉及侵权可进行投诉：投诉/举报工作人员会在5个工作日内联系你，一经查实，本站将立刻删除涉嫌侵权内容。

联系
我们

首页 > 代码库 > 【Pyton】【小甲鱼】爬虫4-XXOO

【Pyton】【小甲鱼】爬虫4-XXOO

看完仍有疑问？有类似问题直接问程序猿