Python Scrapy 自动爬虫注意细节

首页 > 代码库 > Python Scrapy 自动爬虫注意细节

Python Scrapy 自动爬虫注意细节

2024-08-29 00:06:14 223人阅读

一、首次爬取模拟浏览器

在爬虫文件中，添加start_request函数。如：

def start_requests(self):
　　ua = {"User-Agent": ‘Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/53.0.2785.104 Safari/537.36 Core/1.53.2050.400 QQBrowser/9.5.10169.400‘}
　　yield Request("http://www.baidu.com", headers=ua)

需要导入：from scrapy.http import Request

二、自动爬取模拟浏览器

打开settings.py，为USER_AGENT赋值，如：USER_AGENT = ‘Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/53.0.2785.104 Safari/537.36 Core/1.53.2050.400 QQBrowser/9.5.10169.400‘

三、注释原起始页

如使用了start_requests方法，需要注释：start_urls = [‘http://www.baidu.com/‘]

四、目标网站的爬虫协议

ROBOTSTXT_OBEY = False

Python Scrapy 自动爬虫注意细节

声明：以上内容来自用户投稿及互联网公开渠道收集整理发布，本网站不拥有所有权，未作人工编辑处理，也不承担相关法律责任，若内容有误或涉及侵权可进行投诉：投诉/举报工作人员会在5个工作日内联系你，一经查实，本站将立刻删除涉嫌侵权内容。

联系
我们

首页 > 代码库 > Python Scrapy 自动爬虫注意细节

Python Scrapy 自动爬虫注意细节

看完仍有疑问？有类似问题直接问程序猿