首页 > 代码库 > 内容采集
内容采集
爬虫:用于搜索,但搜索的内容还在原来的网站上,主动,智能
采集:把别的网站的内容,放到自己网站上
网站首页相当于入口,入口下有很多一级分类,和首页是上下级的关系。分类是有层级关系的
网站的内容架构:
先确定抓取范围:先分析网站内容结构;eg:抓全栈的数据--那就以网站首页作为入口
网站内容架构:首页下是一级分类,一级分类下是二级分类
内容抓取流程:
入口是个列表页,
用java程序解析,先得拿到页面的html代码
想要抓取数据,得先分析url有何规律
关于提取:HTML解析类库:jsoup和jodd
1,jsoup
前提条件:没有任何第三方类库来自动帮助我来做这件事,用纯java系统类库来做?
内容采集
声明:以上内容来自用户投稿及互联网公开渠道收集整理发布,本网站不拥有所有权,未作人工编辑处理,也不承担相关法律责任,若内容有误或涉及侵权可进行投诉: 投诉/举报 工作人员会在5个工作日内联系你,一经查实,本站将立刻删除涉嫌侵权内容。