首页 > 代码库 > 网站屏蔽搜索引擎的方法

网站屏蔽搜索引擎的方法

有的时候我们的网站可能还在调试阶段,或者只对部分告知用户或内部人使用,可能不想让搜索引擎抓取我们的网站,以下介绍几种屏蔽搜索引擎的抓取:

1.在网站的根目录下创建robots.txt,添加内容:

User-agent:*    Disallow:/ 禁止某一搜索引擎,如百度:

User-agent:baiduspider  Disallow:/

各大搜索引擎代号:

google蜘蛛: googlebot

百度蜘蛛:baiduspider

yahoo蜘蛛:slurp

alexa蜘蛛:ia_archiver

msn蜘蛛:msnbot

有道蜘蛛:YodaoBotOutfoxBot

搜狗蜘蛛:sogou spider

SOSO蜘蛛:sosospider

360PeopleRank

2.在网站单页的<head></head>之间添加Meta信息:

<Meta name=”robots” content=”INDEX,FOLLOW”>

CONTENT=INDEX,FOLLOW:可以抓取本页,而且可以顺着本页继续索引别的链接

CONTENT=NOINDEX,FOLLOW:不许抓取本页,但是可以顺着本页抓取索引别的链接

CONTENT=INDEX,NOFOLLOW:可以抓取本页,但是不许顺着本页抓取索引别的链接

CONTENT=NOINDEX,NOFOLLOW:不许抓取本页,也不许顺着本页抓取索引别的链接。

还可以用以下语句禁止搜索引擎为页面建立快照:

<Meta name=”robots” content=”INDEX,FOLLOW,noarchive”>

3.在网站的根目录下建一个.htaccess文件,这样比robots更加严密(仅适合技术人员),文件内容:

RewriteEngine on

RewriteCond %{HTTP_USER_AGENT} ^Baiduspider [NC]

RewriteRule .* - [F]

网站屏蔽搜索引擎的方法