scrapy使用

2024-08-06 21:55:14 224人阅读

scrapy是一个python爬虫框架，使用起来还是非常简单的。

使用pip安装scrapy

首先安装pip，安装后使用pip安装scrapy，pip install scrapy

scrapy创建项目，及简单测试

　　这里有几个比较好的例子

　　http://blog.csdn.net/HanTangSongMing/article/details/24454453

　　http://my.oschina.net/chengye/blog/124162

　　他们都是使用的CrawlSpider，这种爬虫的有点事可以帮其获取页面上的链接，然后自动爬取。

　　每一条rule的意思是

　　Rule(sle(allow=("/position.php\?&start=\d{,4}#a")), follow=True, callback=‘parse_item‘)

　　首先rule定义了哪些链接需要做跟踪或处理。

　　如果rule的follow为true则跟踪匹配规则对应页面上的链接，如果有回调函数则对匹配规则的页面进行分析

scrapy 使用xpath抓取，xpath是一种xml导航语言，非常好用

scrapy的shell工具非常好用

　　首先打开scrapy shell ：scrapy shell

　　打开后使用fetch(‘url‘)，打开要爬去的链接

　　然后使用 response.xpath(‘//***/***‘) 就能分析页面了

scrapy 的response 已经把页面装维unicode编码了，可以直接encode成gbk或者utf8,。

scrapy中文文档：http://scrapy-chs.readthedocs.org/zh_CN/0.24

我感觉咋像机器翻译的那，有的地方太生硬，可以结合着原文文档使用

scrapy使用

声明：以上内容来自用户投稿及互联网公开渠道收集整理发布，本网站不拥有所有权，未作人工编辑处理，也不承担相关法律责任，若内容有误或涉及侵权可进行投诉：投诉/举报工作人员会在5个工作日内联系你，一经查实，本站将立刻删除涉嫌侵权内容。

联系
我们