Python爬取韩寒所有新浪博客

首页 > 代码库 > Python爬取韩寒所有新浪博客

Python爬取韩寒所有新浪博客

2024-10-26 10:38:02 212人阅读

接上一篇，我们依据第一页的链接爬取了第一页的博客，我们不难发现，每一页的链接就仅仅有一处不同（页码序号），我们仅仅要在上一篇的代码外面加一个循环，这样就能够爬取全部博客分页的博文。也就是全部博文了。

# -*- coding : -utf-8 -*-
import urllib
import time
url = [' ']*350
page = 1
link = 1
while page <=7://眼下共同拥有7页。3
    con = urllib.urlopen('http://blog.sina.com.cn/s/articlelist_1191258123_0_'+str(page)+'.html').read()
    i = 0
    title = con.find(r'<a title=')
    href = http://www.mamicode.com/con.find(r'href=',title)>

代码最以下部分，保存网页仅仅能保存到50，不知道错在哪里。

所以就将保存网页的代码放在搜索里，找到就保存！

正确执行界面：


执行结果：

Python爬取韩寒所有新浪博客

声明：以上内容来自用户投稿及互联网公开渠道收集整理发布，本网站不拥有所有权，未作人工编辑处理，也不承担相关法律责任，若内容有误或涉及侵权可进行投诉：投诉/举报工作人员会在5个工作日内联系你，一经查实，本站将立刻删除涉嫌侵权内容。

联系
我们

首页 > 代码库 > Python爬取韩寒所有新浪博客

Python爬取韩寒所有新浪博客

看完仍有疑问？有类似问题直接问程序猿