首页 > 代码库 > scrapy多线程文件下载
scrapy多线程文件下载
在爬取数据时有时候有些文件数据需要爬取下载下来使用多线程下载可以让程序跑的更快点。
scrapy中有个扩展可以使用扩展模块来实现下载。
在自己的spider中加入 custom_settings
class MytestSpider(scrapy.Spider): name = "mytest" custom_settings = { ‘EXTENSIONS‘: { #设在拓展 ‘mymidtest.mydownutils.extension.SpiderOpenCloseLogging‘: 500, }, ‘MYEXT_ENABLED‘: True, #打开拓展 }
‘mymidtest.mydownutils.extension.SpiderOpenCloseLogging‘为项目路劲下的mydownuils包
在ini函数中加入
def __init__(self, ): ......... ......... self.myredis = operatRedis(self.name) self.Redis = self.myredis.get_instent()
在要下载的时候添加
self.myredis.add_url_filepath(self.Redis,url,filepath_all)
url为下载url地址,filepath_all文件存储地址
这样工具包就配置好可以下载了
工具包地址
github地址:https://github.com/sea1234/pyScrapyDownUtils
scrapy多线程文件下载
声明:以上内容来自用户投稿及互联网公开渠道收集整理发布,本网站不拥有所有权,未作人工编辑处理,也不承担相关法律责任,若内容有误或涉及侵权可进行投诉: 投诉/举报 工作人员会在5个工作日内联系你,一经查实,本站将立刻删除涉嫌侵权内容。