Scrapy爬虫 -- 01

首页 > 代码库 > Scrapy爬虫 -- 01

2024-07-25 08:52:01 223人阅读

Scrapy，Python开发的一个快速,高层次的屏幕抓取和web抓取框架，用于抓取web站点并从页面中提取结取结构化的数据。

--from wiki

说白了就是基于python的爬虫框架。

安装：

ubuntu 14.04
python2.7（python3不支持，不是作者懒，是scrapy的框架依赖twisted还没有完全迁移到python3）
pip

sudo pip2 install scrapy

注意：虽然pip3也能装上scrapy，但是缺少支持库，无法使用。。。乖乖python2吧

使用：

1、新建工程test

scrapy startproject tutoria

这样就会创建这样一个目录结构：

tutorial/
    scrapy.cfg
    tutorial/
        __init__.py
        items.py
        pipelines.py
        settings.py
        spiders/
            __init__.py
            ..

官网的解释如下：

scrapy.cfg: the project configuration file（项目配置文件）
tutorial/: the project’s python module, you’ll later import your code from here.（项目中的定制部分，我不知道怎么翻译好）
tutorial/items.py: the project’s items file.（项目的items文件，其实就是要抓取的数据的结构定义）
tutorial/pipelines.py: the project’s pipelines file.（项目的pipelines文件，在这里可以定义将抓取的数据导出方式，pip中有scrapy-mongodb的pipelines，可以将抓取的数据直接导出到pipeline之中。）
tutorial/settings.py: the project’s settings file.（项目的配置文件）
tutorial/spiders/: a directory where you’ll later put your spiders.（存放爬虫的目录，一般用来将网页爬下来）

待续。。。

Scrapy爬虫 -- 01

声明：以上内容来自用户投稿及互联网公开渠道收集整理发布，本网站不拥有所有权，未作人工编辑处理，也不承担相关法律责任，若内容有误或涉及侵权可进行投诉：投诉/举报工作人员会在5个工作日内联系你，一经查实，本站将立刻删除涉嫌侵权内容。

联系
我们

首页 > 代码库 > Scrapy爬虫 -- 01

Scrapy爬虫 -- 01

看完仍有疑问？有类似问题直接问程序猿