Robots.txt详解

2024-11-04 06:54:39 210人阅读

Robots协议（爬虫协议、机器人协议）的全称是“网络爬虫排除标准”，网站通过Robots协议告诉搜索引擎哪些页面可以抓取，哪些页面不能抓取；

优化蜘蛛爬行：

　　1、提高爬行效率

　　2、减少带宽消耗

　　3、防止双收录

如何在自己的网站设置robots.txt?

　　1、新建Robots.txt

　　2、编辑内容

　　3、上传到根目录

　　注意：Robots.txt文件名必须都是小写

　　　　　Robots.txt必须放到网站根目录

Robots.txt语法详解：

　　User-agent: Baiduspider

　　注意：在冒号后面，要加一个空格。否则不生效。

　　Disallow

　　Disallow: *?*

　　　　禁止搜索引擎收录动态的URL

　　Allow

　　Allow: .jpg$

　　　$ : 通配符，用来表示某一类型文件后缀

Robots.txt提交地图：

　　Sitemap:http://...

如何检测Robots.txt ?

　　网址：http://zhanzhang.baidu.com/robots/index

Robots.txt详解

声明：以上内容来自用户投稿及互联网公开渠道收集整理发布，本网站不拥有所有权，未作人工编辑处理，也不承担相关法律责任，若内容有误或涉及侵权可进行投诉：投诉/举报工作人员会在5个工作日内联系你，一经查实，本站将立刻删除涉嫌侵权内容。

联系
我们