您的位置:首页 > 运维架构 > 网站架构

如何禁止搜狗蜘蛛爬行你的网站

2013-04-23 13:52 656 查看
方法1:

禁止方法,建立robots.txt文件,文件内这样写:

User-agent: Sogou web spider

Disallow: /

User-agent: sogou spider

Disallow: /

User-agent: *

Disallow:

之所以写了两条,因为现在拿不准到底是sogou spider,还是Sogou web spider。其他搜索引擎在相关文章中都有说明自己的蜘蛛名称,但搜狗没有--由此可见它流氓的一面。

然后把文件传到网站的根目录即可。但是搜狗的蜘蛛比较流氓,有时不遵守robots.txt文件协议,禁止它还是来爬。

方法2:

配合robots.txt文件,再写一个文件,文件名

.htaccess

注意文件名,没有名称,只有后缀htaccess,写错了就不管用了。

文件里边这样写:

#block spider

<Limit GET HEAD POST>

order allow,deny

#Sogou block

deny from 220.181.125.71

deny from 220.181.125.68

deny from 220.181.125.69

deny from 220.181.94.235

deny from 220.181.94.233

deny from 220.181.94.236

deny from 220.181.19.84

allow from all

</LIMIT>

写好后,把这个文件也传到网站的根目录。这里边列出来的都是搜狗蜘蛛的IP,它是经常更换的,如果你如现新的,可以随时补充进去。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: