首页 > 代码库 > PythonCrawl自学日志(2)
PythonCrawl自学日志(2)
一、Scrapy环境的安装
1.配套组件的安装
由于开发环境是在VS2015Community中编码,默认下载的python3.5,系统是windows8.1,为此需要安装的组件有如下列表:
所有的组件在pip、easy_install或者可执行exe无法安装时,使用下面的安装方法,
(1)pywim32(win32编程)
在http://www.lfd.uci.edu/~gohlke/pythonlibs/下载对应名字的集成安装包,用import win32api检查是否安装成功,如果import win32con
可以运行,而import win32api显示DLL缺失时,将Python\Lib\site-packages\pywin32_system32\下的所有文件复制到c:\\windows\\system32文件夹下,即可运行
(2)Twisted (socket通讯)
在http://www.lfd.uci.edu/~gohlke/pythonlibs/下载对应名字的集成安装包,用import OpenSSL检测是否安装成功
(3)zope.interface
在http://www.lfd.uci.edu/~gohlke/pythonlibs/下载对应名字集成安装包,用 import zope检测是否安装成功
(4)YAML
在http://pyyaml.org/wiki/PyYAML下载对应的可执行就行了
(5)requests
使用指令 pip install requests==2.2.1
(6)progressbar
在http://www.lfd.uci.edu/~gohlke/pythonlibs/下载对应名字集成安装包
(7)pyOpenSSL(通信协议ssl)
在http://www.lfd.uci.edu/~gohlke/pythonlibs/下载对应名字集成安装包
2.Scrapy的安装
pip install scrapy
二、Scrapy一些命令行指令
1.新建爬虫项目 scrapy startproject 项目名
2.新建爬虫 scrapy genspider 爬虫名字 处理网址
3.运行爬虫 scrapy crawl 爬虫名
4.检查爬虫完整 scrapy check [-l] 爬虫名
5.列出爬虫 scrapy list
6.编辑爬虫 scrapy edit 爬虫名
7.显示爬取过程 scrapy fetch 处理网址
8.下载网页 scrapy view 处理网址
9.组件组合情况 scrapy parse 处理网址
10.爬虫压力测试scrapy bench
11.自定义指令 COMMANDS_MODULE =‘定义指令‘
PythonCrawl自学日志(2)