首页 > 代码库 > python3的一个简单爬虫
python3的一个简单爬虫
#coding=utf-8 import re import urllib.request def getHtml(url): page = urllib.request.urlopen(url) html = page.read() html = html.decode(‘UTF-8‘) return html #Urllib 模块提供读取页面数据的接口 #urllib.request.urlopen()方法用于打开一个url地址 #read()方法用于读取url上的数据 print(getHtml("http://tieba.baidu.com/p/2460150866")) def getImg(html): reg = r‘src="http://www.mamicode.com/(.+?\.jpg)" pic_ext‘ imgre = re.compile(reg) #re.compile()可以把正则表达式编译成一个正则表达式对象 imglist = re.findall(imgre, html) #re.findall()方法读取html中包含imgre(正则表达式)的数据 num = 0 for imgurl in imglist: urllib.request.urlretrieve(imgurl,‘%s.jpg‘ % num) #urllib.request.urlretrieve()方法,直接将远程数据下载到本地 num+=1 if num>10: return num html = getHtml("http://tieba.baidu.com/p/2460150866") print(getImg(html))
python3的一个简单爬虫
声明:以上内容来自用户投稿及互联网公开渠道收集整理发布,本网站不拥有所有权,未作人工编辑处理,也不承担相关法律责任,若内容有误或涉及侵权可进行投诉: 投诉/举报 工作人员会在5个工作日内联系你,一经查实,本站将立刻删除涉嫌侵权内容。