首页 > 代码库 > 简单的爬虫demo
简单的爬虫demo
# coding=<encoding name> 例如,可添加# coding=utf-8 import urllib import re # 定义一个方法,把整个页面下载下来 def getHtml(url): page = urllib.urlopen(url) # 打开网页 html = page.read() #读取 URL上面的数据 return html # 返回内容 # 再定义一个方法,筛选页面中想要的元素,通过正则表达式的匹配 def getimage(html): reg = r‘src="http://www.mamicode.com/(.+?\.jpg)" pic_ext‘ # 定义一个正则表达式 # re.compile() 把正则表达式编译成一个正则表达式对象 imagere =re.compile(reg) # re.findall() 方法读取html 中包含 imgre(正则表达式)的数据。 imagerelist = re.findall(imagere,html) # 遍历图片 x = 0 for imageurl in imagerelist: # 这里的核心是用到了urllib.urlretrieve(),方法,直接将远程数据下载到本地 urllib.urlretrieve(imageurl,‘%s.jpg‘% x) x= x+1 # 调用getHtml 传入一个网址 ht = getHtml("http://tieba.baidu.com/p/2460150866") # 调用getimage ,拿到图片 print getimage(ht)
运行的效果
简单的爬虫demo
声明:以上内容来自用户投稿及互联网公开渠道收集整理发布,本网站不拥有所有权,未作人工编辑处理,也不承担相关法律责任,若内容有误或涉及侵权可进行投诉: 投诉/举报 工作人员会在5个工作日内联系你,一经查实,本站将立刻删除涉嫌侵权内容。