首页 > 代码库 > 网络爬虫-Python
网络爬虫-Python
周末没事自己写了个网络爬虫,先介绍一下它的功能,这是个小程序,主要用来抓取网页上的文章,博客等,首先找到你要抓取的文章,比如韩寒的新浪博客,进入他的文章目录,记下目录的连接比如 http://blog.sina.com.cn/s/articlelist_1191258123_0_1.html,里面每篇文章都有个连接,我们现在需要做的就是根据每个链接进入并把文章复制到你自己的电脑文件里。这就把文章爬下来了 哈哈,不说了 直接来代码吧
import urllib
import time
url=[‘‘]*50
j = 0
con = urllib.urlopen(‘http://blog.sina.com.cn/s/articlelist_1191258123_0_1.html‘).read() #目录链接
i=0
title = con.find(r‘<a title=‘) #找到第一次出现<a title=的位置
声明:以上内容来自用户投稿及互联网公开渠道收集整理发布,本网站不拥有所有权,未作人工编辑处理,也不承担相关法律责任,若内容有误或涉及侵权可进行投诉: 投诉/举报 工作人员会在5个工作日内联系你,一经查实,本站将立刻删除涉嫌侵权内容。