首页 > 代码库 > python爬虫scrapy命令工具学习之篇三
python爬虫scrapy命令工具学习之篇三
命令行工具(Command line tools)
全局命令
startproject
settings
runspider
shell
fetch
view
version
项目命令
crawl
check
list
edit
parse
genspider
deploy
bench
1、创建爬虫工程的命令
scrapy startproject myproject
2、控制项目创建一个spider
scrapy genspider mydomain mydomain.com
3、使用爬虫进行爬去
$ scrapy crawl myspider
4、进行contract检查
$ scrapy check -l
5、列出当前项目中所有可用的spider。每行输出一个spider
$ scrapy list
6、使用 EDITOR
中设定的编辑器编辑给定的spider
$ scrapy edit spider1
7、使用Scrapy下载器(downloader)下载给定的URL,并将获取到的内容送到标准输出。
该命令以spider下载页面的方式获取页面。例如,如果spider有 USER_AGENT
属性修改了 User Agent,该命令将会使用该属性。
因此,您可以使用该命令来查看spider如何获取某个特定页面。
该命令如果非项目中运行则会使用默认Scrapy downloader设定。
- 语法:
scrapy fetch <url>
$ scrapy fetch --nolog http://www.example.com/some/page.html
8、在浏览器中打开给定的URL
- 语法:
scrapy view <url>
在浏览器中打开给定的URL,并以Scrapy spider获取到的形式展现。 有些时候spider获取到的页面和普通用户看到的并不相同。 因此该命令可以用来检查spider所获取到的页面,并确认这是您所期望的。
$ scrapy view http://www.example.com/some/page.html
9、shell命令
在spider的开发调试过程总,shell命令可以通过交互的方式进行调试,非常方便。
以给定的URL(如果给出)或者空(没有给出URL)启动Scrapy shell。 查看 Scrapy终端(Scrapy shell) 获取更多信息。
$ scrapy shell http://www.example.com/some/page.html
10、parse命令
- 语法:
scrapy parse <url> [options]
- 获取给定的URL并使用相应的spider分析处理。如果您提供
--callback
选项,则使用spider的该方法处理,否则使用parse
。
支持的选项:
--spider=SPIDER
: 跳过自动检测spider并强制使用特定的spider--a NAME=VALUE
: 设置spider的参数(可能被重复)--callback
or-c
: spider中用于解析返回(response)的回调函数--pipelines
: 在pipeline中处理item--rules
or-r
: 使用CrawlSpider
规则来发现用来解析返回(response)的回调函数--noitems
: 不显示爬取到的item--nolinks
: 不显示提取到的链接--nocolour
: 避免使用pygments对输出着色--depth
or-d
: 指定跟进链接请求的层次数(默认: 1)--verbose
or-v
: 显示每个请求的详细信息
$ scrapy parse http://www.example.com/ -c parse_item
11、settings
- 语法:
scrapy settings [options]
获取Scrapy的设定
在项目中运行时,该命令将会输出项目的设定值,否则输出Scrapy默认设定。
$ scrapy settings --get BOT_NAME scrapybot $ scrapy settings --get DOWNLOAD_DELAY 0
12、runspider
- 在未创建项目的情况下,运行一个编写在Python文件中的spider。
- 语法:
scrapy runspider <spider_file.py>
$ scrapy runspider myspider.py
13、其他命令
version:
- 语法:
scrapy version [-v]
- 输出Scrapy版本。配合
-v
运行时,该命令同时输出Python, Twisted以及平台的信息,方便bug提交。
deploy
- 将项目部署到Scrapyd服务。查看 部署您的项目 。
- 语法:
scrapy deploy [ <target:project> | -l <target> | -L ]
bench
- 运行benchmark测试。 Benchmarking 。
- 语法:
scrapy bench
14、自定义项目命令
可以通过 COMMANDS_MODULE
来添加您自己的项目命令。您可以以 scrapy/commands 中Scrapy commands为例来了解如何实现您的命令。
COMMANDS_MODULE
Default: ‘‘
(empty string)
用于查找添加自定义Scrapy命令的模块。
python爬虫scrapy命令工具学习之篇三