第二只Python爬虫

首页 > 代码库 > 第二只Python爬虫

2024-08-13 02:22:30 219人阅读

同样参照网上教程，同时把会的不多的html标签又复习了一下

同时安利一个网站，我唯一加入过的一个社团官网（web开发协会

www.nutjs.com

前任会长是属于大牛级的存在，目前网站已多次重构，花生太神辣。

好了，于是用这个网站做了下练习

import reimport urllib.requestimport urllibfrom collections import dequequeue = deque()visited = set()url = ‘http://www.nutjs.com/‘# 初始抓取网站queue.append(url)cnt = 0 #抓取网页计数器while queue:    #队列循环bfs抓取    url = queue.popleft()    visited |= {url}     #去重，防止重复抓取    print(‘正在抓取:‘+ url)    cnt+=1    urlop = urllib.request.urlopen(url)    if ‘html‘ not in urlop.getheader(‘Content-Type‘): continue     #过滤出合法所需的文本    try:        data = urlop.read().decode(‘utf-8‘)    except:        continue        linkre = re.compile(‘href=http://www.mamicode.com/"(.+?)\"‘)    for x in linkre.findall(data):        # print(x)        if ‘http‘ in x and x not in visited:            queue.append(x)

运行效果如下：

技术分享

第二只Python爬虫

声明：以上内容来自用户投稿及互联网公开渠道收集整理发布，本网站不拥有所有权，未作人工编辑处理，也不承担相关法律责任，若内容有误或涉及侵权可进行投诉：投诉/举报工作人员会在5个工作日内联系你，一经查实，本站将立刻删除涉嫌侵权内容。

联系
我们

首页 > 代码库 > 第二只Python爬虫

第二只Python爬虫

看完仍有疑问？有类似问题直接问程序猿