您的位置：首页 > 其它

百度蜘蛛是笨蛋看我怎么活捉蜘蛛

2010-07-07 15:14 316 查看

　　最新发现，百度蜘蛛(Baiduspider)是笨蛋!最近发现网站百度收录的很慢，基本上是过几天重新快照下首页，其它页面基本上不收录!郁
闷!实在郁闷!打开网站IIS log，查了下百度蜘蛛，大惊!有重大发现：百度蜘蛛真是个笨蛋!

　　一、先看看百度蜘蛛是怎么笨死的。以下是百度蜘蛛在我网站上的活动记录。

　　1、2009-06-03 21:26:05 W3SVC962713505 218.60.130.19 GET
/robots.txt - 80 - 123.125.64.15 Baiduspider+(+http://www.baidu.com/search/spider.htm
)
404 0 64 (注：404表明未找到robots.txt)

　　2、2009-06-03 21:26:49 W3SVC962713505 218.60.130.19 GET
/index.asp - 80 - 123.125.64.15 Baiduspider+(+http://www.baidu.com/search/spider.htm
)
200 0 64 (注：200表明找到首页文件index.asp)

　　由此可以看出，百度蜘蛛的活动，先到网站找robots.txt
这个文件，如果没有则找到网站首页index.asp，和百度目前收录的首页对比后发现和原来没变化，然后走了。和广大站长一样，谁不想自己被百度收录的
页面时不时的快照更新下?看来只有先完善robots.txt ，牵着百度蜘蛛到我站上到处跑了。

　　二、书写robots.txt ，带百度到你站上四处逛逛。

　　robots.txt 这个文件必须写。具体怎么写大家都懂吧?不会的话我再重复下

　　例1. 禁止所有搜索引擎访问网站的任何部分

　　User-agent: *

　　Disallow: /

　　例2. 允许所有的robot访问

　　(或者也可以建一个空文件 "/robots.txt")

　　User-agent: *

　　Disallow:

　　或者

　　User-agent: *

　　Allow: /

　　(桌子注：这个必须的，不要建空文件，那是百度在放烟。最好写下面一句。)

　　例3. 仅禁止Baiduspider访问您的网站

　　User-agent: Baiduspider

　　Disallow: /

　　例4. 仅允许Baiduspider访问您的网站

　　User-agent: Baiduspider

　　Disallow:

　　User-agent: *

　　Disallow: /

　　例5. 禁止spider访问特定目录

　　在这个例子中，该网站有三个目录对搜索引擎的访问做了限制，即robot不会访问这三个目录。需要注意的是对每一个目录必须分开声明，而不能写
成 "Disallow: /cgi-bin/ /tmp/"。

　　User-agent: *

　　Disallow: /cgi-bin/

　　Disallow: /tmp/

　　Disallow: /~joe/

　　例6. 允许访问特定目录中的部分url

　　User-agent: *

　　Allow: /cgi-bin/see

　　Allow: /tmp/hi

　　Allow: /~joe/look

　　Disallow: /cgi-bin/

　　Disallow: /tmp/

　　Disallow: /~joe/

　　例7. 使用"*"限制访问url

　　禁止访问/cgi-bin/目录下的所有以".htm"为后缀的URL(包含子目录)。

　　User-agent: *

　　Disallow: /cgi-bin/*.htm

　　例8. 使用"$"限制访问url

　　仅允许访问以".htm"为后缀的URL。

　　User-agent: *

　　Allow: .htm$

　　Disallow: /

　　例9. 禁止访问网站中所有的动态页面

　　User-agent: *

　　Disallow: /*?*

　　例10. 禁止Baiduspider抓取网站上所有图片

　　仅允许抓取网页，禁止抓取任何图片。

　　User-agent: Baiduspider

　　Disallow: .jpg$

　　Disallow: .jpeg$

　　Disallow: .gif$

　　Disallow: .png$

　　Disallow: .bmp$

　　例11. 仅允许Baiduspider抓取网页和.gif格式图片

　　允许抓取网页和gif格式图片，不允许抓取其他格式图片

　　User-agent: Baiduspider

　　Allow: .gif$

　　Disallow: .jpg$

　　Disallow: .jpeg$

　　Disallow: .png$

　　Disallow: .bmp$

　　例12. 仅禁止Baiduspider抓取.jpg格式图片

　　User-agent: Baiduspider

　　Disallow: .jpg$

　　看看桌子自己写的robots.txt，大家参考

　　复制代码

　　User-agent: *

　　Disallow: /admin/

　　Disallow: /Soft/

　　Allow: /images/

　　Allow: /html/

　　Allow: .htm$

　　Allow: .php$

　　Allow: .asp$

　　Allow: .gif$

　　Allow: .jpg$

　　Allow: .jpeg$

　　Allow: .png$

　　Allow: .bmp$

　　Allow: /

　　解释:

　　1、允许各种搜索引擎索引

　　2、禁止索引/admin目录，这里是网站的后台，当然禁止了

　　3、禁止/soft等重要安全目录

　　4、允许访问/images目录

　　5、允许访问/html目录

　　6、允许访问所有htm，php,asp,html文件

　　7、允许抓取gif,jpg,jpeg,png,bmp格式的图片

　　8、允许抓取网站根目录下的文件。

　　好了，把你的
robots.txt传到网站跟目录下等着百度蜘蛛再来吧。到时候有这个好向导会带着那个笨蛋到你站上到处走走的。本文作者桌子，由MOFHOT外贸服装
批发网www.mofhot.com

搜集发布，请A5留个连接谢谢~发个文章也不容易的。

文章来自: 站长网(www.admin5.com
)
详文参考：http://www.admin5.com/article/20090606/156451.shtml

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航

百度蜘蛛是笨蛋 看我怎么活捉蜘蛛

百度蜘蛛是笨蛋看我怎么活捉蜘蛛