首页 > 代码库 > 通用网络采集系统的开发实验
通用网络采集系统的开发实验
采集,顾名思义,就是把别人网站上的东西,采集到自己的数据库,发布到自己的网站上。
虽然这么做有点不道德,但是从技术上来讲,我们是可以来研究研究的。只要你不用来祸害别人,不给社会造成恶劣的影响,这都是可以理解的。
换句话说,你可以没有车,但是你要有驾照,不要得到别人免费送你一辆车你却开不走 ,就很没有意思了。。。
好了,不废话了。
国庆期间,我出于兴趣,研究了一下采集。
目标是:只要给我一个网站,就可以把主要内容采集下来,把相关图片下载到本地。只能能达到这个目的 就OK了。
先来上2个图:
点击打开链接 查看具体采集效果
下面来解释一下:
整个过程只需两步,
第一步:指定采集的网站集合合规则
第2步:执行采集
最关键的是第一步,因为这是这个采集的源头,具体网址的采集 会根据正则表达式去提取有效的地址。
例如:你设置了采集网站的域名为QQ。com ,那么你首先要设置这个域名,然后在设置具体的有效的地址
的正则规则,
每个网站都包含有标题和具体内容这两项;因此只要设置这两个提取标题的内容,就可以了。至于内容中的
图片,也是靠正则提取,采用数据流的方式进行下载到本地的。
现在到本地以后,你可以创建缩略图或者添加水印 都是可以的
通用网络采集系统的开发实验
声明:以上内容来自用户投稿及互联网公开渠道收集整理发布,本网站不拥有所有权,未作人工编辑处理,也不承担相关法律责任,若内容有误或涉及侵权可进行投诉: 投诉/举报 工作人员会在5个工作日内联系你,一经查实,本站将立刻删除涉嫌侵权内容。