首页 > 代码库 > 第二只Python爬虫
第二只Python爬虫
同样参照网上教程,同时把会的不多的html标签又复习了一下
同时安利一个网站,我唯一加入过的一个社团官网(web开发协会
www.nutjs.com
前任会长是属于大牛级的存在,目前网站已多次重构,花生太神辣。
好了,于是用这个网站做了下练习
import reimport urllib.requestimport urllibfrom collections import dequequeue = deque()visited = set()url = ‘http://www.nutjs.com/‘# 初始抓取网站queue.append(url)cnt = 0 #抓取网页计数器while queue: #队列循环bfs抓取 url = queue.popleft() visited |= {url} #去重,防止重复抓取 print(‘正在抓取:‘+ url) cnt+=1 urlop = urllib.request.urlopen(url) if ‘html‘ not in urlop.getheader(‘Content-Type‘): continue #过滤出合法所需的文本 try: data = urlop.read().decode(‘utf-8‘) except: continue linkre = re.compile(‘href=http://www.mamicode.com/"(.+?)\"‘) for x in linkre.findall(data): # print(x) if ‘http‘ in x and x not in visited: queue.append(x)
运行效果如下:
第二只Python爬虫
声明:以上内容来自用户投稿及互联网公开渠道收集整理发布,本网站不拥有所有权,未作人工编辑处理,也不承担相关法律责任,若内容有误或涉及侵权可进行投诉: 投诉/举报 工作人员会在5个工作日内联系你,一经查实,本站将立刻删除涉嫌侵权内容。