Robots.txt

2024-08-04 08:27:51 221人阅读

　　　搜索引擎都有自己的机器人（robots）沿着超链接访问网站，但是有些时候，网站的管理者和内容的提供者不想让你的robots抓取内容，所以ROBOTS开发界提供了两个办法：一个是robots.txt，另一个是TheRobotsMETA标签。

　　　当搜索引擎搜索到该站点的时候，会先去站点的根目录下面查看是否含有robots.txt。如果有，就根据txt的配置读取指定的内容，如果不存在robots.txt的话，就毫无影响。

比如说，我的搜索引擎访问songtaste这个音乐网站，http://www.songtaste.com/，目录是这个。

　　　那我们查看robots.txt就是http://www.songtaste.com/robots.txt，可以看到：

　　　User-Agent: *

　　　Allow: /

　　这就代表者，所有的访问的robots都是允许访问站点的所有内容的。

　　如果是DisAllow: /,那就代表着所有的robots都不能抓取站点的内容。

网络爬虫学习第一步！

　　更详细的robots知识在：http://www.bloghuman.com/post/67/

Robots.txt

声明：以上内容来自用户投稿及互联网公开渠道收集整理发布，本网站不拥有所有权，未作人工编辑处理，也不承担相关法律责任，若内容有误或涉及侵权可进行投诉：投诉/举报工作人员会在5个工作日内联系你，一经查实，本站将立刻删除涉嫌侵权内容。

联系
我们