首页 > 代码库 > Robots.txt
Robots.txt
搜索引擎都有自己的机器人(robots)沿着超链接访问网站,但是有些时候,网站的管理者和内容的提供者不想让你的robots抓取内容,所以ROBOTS开发界提供了两个办法:一个是robots.txt,另一个是TheRobotsMETA标签。
当搜索引擎搜索到该站点的时候,会先去站点的根目录下面查看是否含有robots.txt。如果有,就根据txt的配置读取指定的内容,如果不存在robots.txt的话,就毫无影响。
比如说,我的搜索引擎访问songtaste这个音乐网站,http://www.songtaste.com/,目录是这个。
那我们查看robots.txt就是http://www.songtaste.com/robots.txt,可以看到:
User-Agent: *
Allow: /
这就代表者,所有的访问的robots都是允许访问站点的所有内容的。
如果是DisAllow: /,那就代表着所有的robots都不能抓取站点的内容。
网络爬虫学习第一步!
更详细的robots知识在:http://www.bloghuman.com/post/67/
Robots.txt
声明:以上内容来自用户投稿及互联网公开渠道收集整理发布,本网站不拥有所有权,未作人工编辑处理,也不承担相关法律责任,若内容有误或涉及侵权可进行投诉: 投诉/举报 工作人员会在5个工作日内联系你,一经查实,本站将立刻删除涉嫌侵权内容。