首页 > 代码库 > 第一天:项目搭建

第一天:项目搭建

一、前言

  1.0、由于没有写过那种通用爬虫的框架,就四处搜了一下,也找到很多资料,这里就采用了其中一个大神介绍的框架模式。具体引用地址我忘记了,这里就不贴出来了。

  2.0、之前说的验证码模块也停了,到时候集合在这个分类一面一起说

二、正文

  2.1、框架设计图

  技术分享

  2.2、由上面这张图可以看出各个模块之间的关系,具体描述我也复制粘贴过来了

  ①、Scheduler:负责URL的调度,可以实现如Queue, PriorityScheduler, RedisScheduler等等

  ②、Downloader: 负责下载HTML,可以实现如HttpDownloader, 浏览器的Downloader(WebDriver), FiddlerDownloader,本地文件Downloader等等

  ③、PageProcesser: 负责HTML解析及新的符合规则的URL解析

  ④、Pipeline: 负责数据的存储, 可以实现如MySql, MySqlFile,MSSQL,MongoDb等等

三、其他

  3.1、整个程序的设计我是这样打算的:

  ①、使用WPF开发(主要是因为界面可以比较酷炫)

  ②、暂时想到的主体功能有:数据采集、数据保存、数据过滤、模拟登陆(包括了数据发布)、验证码识别、当然允许的话可以放到云上...

  ③、使用要方便简单、可视化操作

  ④、嗯,就先这么多吧,最重要的还是现实,后期可以慢慢扩展

  3.2、项目涉及的内容可能有:

  ①、正则表达式、Xpath等解析Html

  ②、验证码识别

  ③、数据加密、解密

  ④、数据库操作

  ⑤、很多很多的内容,相信等做完这个项目,我将会有一个质的飞跃....

第一天:项目搭建