首页 > 代码库 > web爬虫
web爬虫
第一、爬虫及其行为方式
1.根集
2.连接的提取和相对链接的标准化
从页面提取出链接,然后把相对链接转化为绝对链接
3.避免环路的出现
4.循环和复制
5.记录爬过得链接
- 树和散列表
- 有损的存在位图
- 集群和索引
6.规范URL
7.避免循环和重复
- 规范URL
- 广度优先的爬行
- 节流:限制一段时间内机器人可以从一个WEB站点获取的页面的数量
- 限制URL的大小
- URL/站点黑白名单
- 内容识别
- 模式检测
- 人工监视
8.机器人的HTTP
http1.1加host首部
9.web站点和robots.txt文件
1.获取robots.txt
2.robots文件采用了非常简单的、面向行的语法
robotx.txt有三种类型的行:空行、注释行、规则行
User-Agent:<robot-name>
Disallow:URL list
机器人将期望访问的url与上面的URL list做比较,如果不在list内,说明可以访问该URL
声明:以上内容来自用户投稿及互联网公开渠道收集整理发布,本网站不拥有所有权,未作人工编辑处理,也不承担相关法律责任,若内容有误或涉及侵权可进行投诉: 投诉/举报 工作人员会在5个工作日内联系你,一经查实,本站将立刻删除涉嫌侵权内容。