web爬虫

2024-07-07 11:35:47 224人阅读

第一、爬虫及其行为方式

1.根集

2.连接的提取和相对链接的标准化

从页面提取出链接，然后把相对链接转化为绝对链接

3.避免环路的出现

4.循环和复制

5.记录爬过得链接

6.规范URL

7.避免循环和重复

8.机器人的HTTP

http1.1加host首部

9.web站点和robots.txt文件

1.获取robots.txt

2.robots文件采用了非常简单的、面向行的语法

robotx.txt有三种类型的行：空行、注释行、规则行

User-Agent：<robot-name>

Disallow:URL list

机器人将期望访问的url与上面的URL list做比较，如果不在list内，说明可以访问该URL

声明：以上内容来自用户投稿及互联网公开渠道收集整理发布，本网站不拥有所有权，未作人工编辑处理，也不承担相关法律责任，若内容有误或涉及侵权可进行投诉：投诉/举报工作人员会在5个工作日内联系你，一经查实，本站将立刻删除涉嫌侵权内容。

联系
我们