首页 > 代码库 > 内容采集

内容采集

爬虫:用于搜索,但搜索的内容还在原来的网站上,主动,智能

采集:把别的网站的内容,放到自己网站上

 

 

网站首页相当于入口,入口下有很多一级分类,和首页是上下级的关系。分类是有层级关系的

网站的内容架构:

 技术分享

先确定抓取范围:先分析网站内容结构;eg:抓全栈的数据--那就以网站首页作为入口

网站内容架构:首页下是一级分类,一级分类下是二级分类

内容抓取流程:

技术分享

入口是个列表页,

用java程序解析,先得拿到页面的html代码

想要抓取数据,得先分析url有何规律

关于提取:HTML解析类库:jsoup和jodd

1,jsoup

前提条件:没有任何第三方类库来自动帮助我来做这件事,用纯java系统类库来做?

 

内容采集