首页 > 代码库 > scrapy工程创建及pycharm运行

scrapy工程创建及pycharm运行

1.通过命令行创建scrapy工程项目
scrapy startproject (工程名)

scrapy startproject myxml

 

 

2.利用爬虫模板设置爬虫文件
在这个过程中我们可以先利用 scrapy genspider -l(小写的L)命令查看当前的爬虫模板
如:scrapy genspider -t 模板名 爬虫文件名 允许的域名

scrapy genspider -t xmlfeed myxmlspider sina.com.cn

注释:
scrapy genspider -l 查看当前可以使用的爬虫模板
scrapy genspider -t 创建爬虫文件

 

 

 

3.将scrapy工程项目导入到pycharm中

 


4.编写Item文件(items.py),定义需要关注的数据

import scrapy
class ..(scrapy.Item):
name = scrapy.Field()
email = scrapy.Field()
...

 

 

5.编写爬虫文件(如上面的myxmlspider.py)

 


6.编辑scrapy在pycharm的运行环境
在Run中选择Edit Configuration
点击"+"创建一个"Python"
相关配置如下:

技术分享


 

scrapy工程创建及pycharm运行