首页 > 代码库 > python-简单爬虫
python-简单爬虫
1 #!/usr/bin/python 2 #coding=utf-8 3 #网络爬虫 4 import urllib,re 5 6 def getHtml(url): 7 page=urllib.urlopen(url) #打开一个url 8 html=page.read() #读取全部内容生成一个字符串(对象) 9 return html 10 def getImg(html): 11 reg=r‘src="http://www.mamicode.com/(http://.+?\.jpg)"‘ 12 imgre=re.compile(reg) #将一个正则表达式生成为响应的对象 13 imglist=re.findall(imgre,html) #从html字符串终止找到符合imgre正则表达式的项,返回列表 14 print imglist 15 x=0 16 for imgurl in imglist: 17 urllib.urlretrieve(imgurl,‘%s.jpg‘%x) 18 x+=1 19 20 html=getHtml(‘http://tieba.baidu.com/p/4710048390‘) 21 getImg(html)
python-简单爬虫
声明:以上内容来自用户投稿及互联网公开渠道收集整理发布,本网站不拥有所有权,未作人工编辑处理,也不承担相关法律责任,若内容有误或涉及侵权可进行投诉: 投诉/举报 工作人员会在5个工作日内联系你,一经查实,本站将立刻删除涉嫌侵权内容。