首页 > 代码库 > python爬虫beautifulsoup4系列3
python爬虫beautifulsoup4系列3
前言
本篇手把手教大家如何爬取网站上的图片,并保存到本地电脑
一、目标网站
1.随便打开一个风景图的网站:http://699pic.com/sousuo-218808-13-1.html
2.用firebug定位,打开firepath里css定位目标图片
3.从下图可以看出,所有的图片都是img标签,class属性都是lazy
二、用find_all找出所有的标签
1.find_all(class_="lazy")获取所有的图片对象标签
2.从标签里面提出jpg的url地址和title
1 # coding:utf-8 2 from bs4 import BeautifulSoup 3 import requests 4 import os 5 r = requests.get("http://699pic.com/sousuo-218808-13-1.html") 6 fengjing = r.content 7 soup = BeautifulSoup(fengjing, "html.parser") 8 # 找出所有的标签 9 images = soup.find_all(class_="lazy")10 # print images # 返回list对象11 12 for i in images:13 jpg_rl = i["data-original"] # 获取url地址14 title = i["title"] # 返回title名称15 print title16 print jpg_rl17 print ""
三、保存图片
1.在当前脚本文件夹下创建一个jpg的子文件夹
2.导入os模块,os.getcwd()这个方法可以获取当前脚本的路径
3.用open打开写入本地电脑的文件路径,命名为:os.getcwd()+"\\jpg\\"+title+‘.jpg‘(命名重复的话,会被覆盖掉)
4.requests里get打开图片的url地址,content方法返回的是二进制流文件,可以直接写到本地
四、参考代码
1 # coding:utf-8 2 from bs4 import BeautifulSoup 3 import requests 4 import os 5 r = requests.get("http://699pic.com/sousuo-218808-13-1.html") 6 fengjing = r.content 7 soup = BeautifulSoup(fengjing, "html.parser") 8 # 找出所有的标签 9 images = soup.find_all(class_="lazy")10 # print images # 返回list对象11 12 for i in images:13 jpg_rl = i["data-original"]14 title = i["title"]15 print title16 print jpg_rl17 print ""18 with open(os.getcwd()+"\\jpg\\"+title+‘.jpg‘, "wb") as f:19 f.write(requests.get(jpg_rl).content)
对python接口自动化有兴趣的,可以加python接口自动化QQ群:226296743
也可以关注下我的个人公众号:
python爬虫beautifulsoup4系列3
声明:以上内容来自用户投稿及互联网公开渠道收集整理发布,本网站不拥有所有权,未作人工编辑处理,也不承担相关法律责任,若内容有误或涉及侵权可进行投诉: 投诉/举报 工作人员会在5个工作日内联系你,一经查实,本站将立刻删除涉嫌侵权内容。