首页 > 代码库 > Python爬取韩寒所有新浪博客
Python爬取韩寒所有新浪博客
接上一篇,我们依据第一页的链接爬取了第一页的博客,我们不难发现,每一页的链接就仅仅有一处不同(页码序号),我们仅仅要在上一篇的代码外面加一个循环,这样就能够爬取全部博客分页的博文。也就是全部博文了。
# -*- coding : -utf-8 -*- import urllib import time url = [' ']*350 page = 1 link = 1 while page <=7://眼下共同拥有7页。3 con = urllib.urlopen('http://blog.sina.com.cn/s/articlelist_1191258123_0_'+str(page)+'.html').read() i = 0 title = con.find(r'<a title=') href = http://www.mamicode.com/con.find(r'href=',title)>代码最以下部分,保存网页仅仅能保存到50,不知道错在哪里。
所以就将保存网页的代码放在搜索里,找到就保存!
正确执行界面:
执行结果:
Python爬取韩寒所有新浪博客
声明:以上内容来自用户投稿及互联网公开渠道收集整理发布,本网站不拥有所有权,未作人工编辑处理,也不承担相关法律责任,若内容有误或涉及侵权可进行投诉: 投诉/举报 工作人员会在5个工作日内联系你,一经查实,本站将立刻删除涉嫌侵权内容。