首页 > 代码库 > scrapy爬虫框架

scrapy爬虫框架

技术分享

downloader:负责下载html页面

spider:负责爬取页面内容,我们需要自己写爬取规则  srapy提供了selector,获取的方式有xpath,css,正则,extract 

item容器:spider获取到的内容放到item中

schedul:负责调度    

scrapy爬虫框架