首页 > 代码库 > Robots.txt详解
Robots.txt详解
Robots协议(爬虫协议、机器人协议)的全称是“网络爬虫排除标准”,网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取;
优化蜘蛛爬行:
1、提高爬行效率
2、减少带宽消耗
3、防止双收录
如何在自己的网站设置robots.txt?
1、新建Robots.txt
2、编辑内容
3、上传到根目录
注意:Robots.txt文件名必须都是小写
Robots.txt必须放到网站根目录
Robots.txt语法详解:
User-agent: Baiduspider
注意:在冒号后面,要加一个空格。否则不生效。
Disallow
Disallow: *?*
禁止搜索引擎收录动态的URL
Allow
Allow: .jpg$
$ : 通配符,用来表示某一类型文件后缀
Robots.txt提交地图:
Sitemap:http://...
如何检测Robots.txt ?
网址:http://zhanzhang.baidu.com/robots/index
Robots.txt详解
声明:以上内容来自用户投稿及互联网公开渠道收集整理发布,本网站不拥有所有权,未作人工编辑处理,也不承担相关法律责任,若内容有误或涉及侵权可进行投诉: 投诉/举报 工作人员会在5个工作日内联系你,一经查实,本站将立刻删除涉嫌侵权内容。