首页 > 代码库 > Python文本爬虫实战
Python文本爬虫实战
转载请注明原文地址:http://www.cnblogs.com/ygj0930/p/7019950.html
一:流程
目标:爬取目标网页的图片
1:获取网页源码
2:用Python读取源码
3:使用正则表达式从网页源码提取图片地址
4:根据图片地址下载图片
二:实现
1:源码获取
文本爬虫,是在已有的文本内容中爬取需要的信息,这区别于网络爬虫。
由于被检索的内容是现成的,因此,文本爬虫又叫“半自动爬虫”。
在本例中,我们以昵图网首页为目标网址,因此,我们先到昵图网首页,右键—>查看源代码—>保存源码到txt文件。
2:编写代码
#coding:utf8 import re import requests #1:读取文本文件,存到一个变量中 f=open("src.txt","r+") htmls=f.read() f.close() #2:使用正则表达式,从独取出来的文本内容中进行提取 img_url=re.findall(‘<img src="http://www.mamicode.com/(.*?)"‘,htmls,re.S) #3:遍历正则表达式的匹配结果,使用requests模块功能连接图片并通过文件写操作把图片保存下来 i=1; for each in img_url: #连接到图片 img=requests.get(each) #创建图片文件 fp=open(‘img‘+str(i)+‘.jpg‘,"wb") #把链接到的图片内容写入文件 fp.write(img.content) #关闭文件 fp.close() i=i+1
Python文本爬虫实战
声明:以上内容来自用户投稿及互联网公开渠道收集整理发布,本网站不拥有所有权,未作人工编辑处理,也不承担相关法律责任,若内容有误或涉及侵权可进行投诉: 投诉/举报 工作人员会在5个工作日内联系你,一经查实,本站将立刻删除涉嫌侵权内容。