首页 > 代码库 > 通用网络采集系统的开发实验

通用网络采集系统的开发实验

采集,顾名思义,就是把别人网站上的东西,采集到自己的数据库,发布到自己的网站上。

虽然这么做有点不道德,但是从技术上来讲,我们是可以来研究研究的。只要你不用来祸害别人,不给社会造成恶劣的影响,这都是可以理解的。

换句话说,你可以没有车,但是你要有驾照,不要得到别人免费送你一辆车你却开不走 ,就很没有意思了。。。

好了,不废话了。

 

国庆期间,我出于兴趣,研究了一下采集。

目标是:只要给我一个网站,就可以把主要内容采集下来,把相关图片下载到本地。只能能达到这个目的 就OK了。

先来上2个图:

 

点击打开链接 查看具体采集效果

 

下面来解释一下:

 

整个过程只需两步,

第一步:指定采集的网站集合合规则

第2步:执行采集

 

最关键的是第一步,因为这是这个采集的源头,具体网址的采集 会根据正则表达式去提取有效的地址。

例如:你设置了采集网站的域名为QQ。com ,那么你首先要设置这个域名,然后在设置具体的有效的地址

的正则规则,

每个网站都包含有标题和具体内容这两项;因此只要设置这两个提取标题的内容,就可以了。至于内容中的

图片,也是靠正则提取,采用数据流的方式进行下载到本地的。

 

现在到本地以后,你可以创建缩略图或者添加水印 都是可以的

 

 

 

 

通用网络采集系统的开发实验