百度蜘蛛是笨蛋 看我怎么活捉蜘蛛
2010-07-07 15:14
316 查看
最新发现,百度蜘蛛(Baiduspider)是笨蛋!最近发现网站百度收录的很慢,基本上是过几天重新快照下首页,其它页面基本上不收录!郁
闷!实在郁闷!打开网站IIS log,查了下百度蜘蛛,大惊!有重大发现:百度蜘蛛真是个笨蛋!
一、先看看百度蜘蛛是怎么笨死的。以下是百度蜘蛛在我网站上的活动记录。
1、2009-06-03 21:26:05 W3SVC962713505 218.60.130.19 GET
/robots.txt - 80 - 123.125.64.15 Baiduspider+(+http://www.baidu.com/search/spider.htm
)
404 0 64 (注:404表明未找到robots.txt)
2、2009-06-03 21:26:49 W3SVC962713505 218.60.130.19 GET
/index.asp - 80 - 123.125.64.15 Baiduspider+(+http://www.baidu.com/search/spider.htm
)
200 0 64 (注:200表明找到首页文件index.asp)
由此可以看出,百度蜘蛛的活动,先到网站找robots.txt
这个文件,如果没有则找到网站首页index.asp,和百度目前收录的首页对比后发现和原来没变化,然后走了。和广大站长一样,谁不想自己被百度收录的
页面时不时的快照更新下?看来只有先完善robots.txt ,牵着百度蜘蛛到我站上到处跑了。
二、书写robots.txt ,带百度到你站上四处逛逛。
robots.txt 这个文件必须写。具体怎么写大家都懂吧?不会的话我再重复下
例1. 禁止所有搜索引擎访问网站的任何部分
User-agent: *
Disallow: /
例2. 允许所有的robot访问
(或者也可以建一个空文件 "/robots.txt")
User-agent: *
Disallow:
或者
User-agent: *
Allow: /
(桌子注:这个必须的,不要建空文件,那是百度在放烟。最好写下面一句。)
例3. 仅禁止Baiduspider访问您的网站
User-agent: Baiduspider
Disallow: /
例4. 仅允许Baiduspider访问您的网站
User-agent: Baiduspider
Disallow:
User-agent: *
Disallow: /
例5. 禁止spider访问特定目录
在这个例子中,该网站有三个目录对搜索引擎的访问做了限制,即robot不会访问这三个目录。需要注意的是对每一个目录必须分开声明,而不能写
成 "Disallow: /cgi-bin/ /tmp/"。
User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /~joe/
例6. 允许访问特定目录中的部分url
User-agent: *
Allow: /cgi-bin/see
Allow: /tmp/hi
Allow: /~joe/look
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /~joe/
例7. 使用"*"限制访问url
禁止访问/cgi-bin/目录下的所有以".htm"为后缀的URL(包含子目录)。
User-agent: *
Disallow: /cgi-bin/*.htm
例8. 使用"$"限制访问url
仅允许访问以".htm"为后缀的URL。
User-agent: *
Allow: .htm$
Disallow: /
例9. 禁止访问网站中所有的动态页面
User-agent: *
Disallow: /*?*
例10. 禁止Baiduspider抓取网站上所有图片
仅允许抓取网页,禁止抓取任何图片。
User-agent: Baiduspider
Disallow: .jpg$
Disallow: .jpeg$
Disallow: .gif$
Disallow: .png$
Disallow: .bmp$
例11. 仅允许Baiduspider抓取网页和.gif格式图片
允许抓取网页和gif格式图片,不允许抓取其他格式图片
User-agent: Baiduspider
Allow: .gif$
Disallow: .jpg$
Disallow: .jpeg$
Disallow: .png$
Disallow: .bmp$
例12. 仅禁止Baiduspider抓取.jpg格式图片
User-agent: Baiduspider
Disallow: .jpg$
看看桌子自己写的robots.txt,大家参考
复制代码
User-agent: *
Disallow: /admin/
Disallow: /Soft/
Allow: /images/
Allow: /html/
Allow: .htm$
Allow: .php$
Allow: .asp$
Allow: .gif$
Allow: .jpg$
Allow: .jpeg$
Allow: .png$
Allow: .bmp$
Allow: /
解释:
1、允许各种搜索引擎索引
2、禁止索引/admin目录,这里是网站的后台,当然禁止了
3、禁止/soft等重要安全目录
4、允许访问/images目录
5、允许访问/html目录
6、允许访问所有htm,php,asp,html文件
7、允许抓取gif,jpg,jpeg,png,bmp格式的图片
8、允许抓取网站根目录下的文件。
好了,把你的
robots.txt传到网站跟目录下等着百度蜘蛛再来吧。到时候有这个好向导会带着那个笨蛋到你站上到处走走的。本文作者桌子,由MOFHOT外贸服装
批发网www.mofhot.com
搜集发布,请A5留个连接谢谢~发个文章也不容易的。
文章来自: 站长网(www.admin5.com
)
详文参考:http://www.admin5.com/article/20090606/156451.shtml
闷!实在郁闷!打开网站IIS log,查了下百度蜘蛛,大惊!有重大发现:百度蜘蛛真是个笨蛋!
一、先看看百度蜘蛛是怎么笨死的。以下是百度蜘蛛在我网站上的活动记录。
1、2009-06-03 21:26:05 W3SVC962713505 218.60.130.19 GET
/robots.txt - 80 - 123.125.64.15 Baiduspider+(+http://www.baidu.com/search/spider.htm
)
404 0 64 (注:404表明未找到robots.txt)
2、2009-06-03 21:26:49 W3SVC962713505 218.60.130.19 GET
/index.asp - 80 - 123.125.64.15 Baiduspider+(+http://www.baidu.com/search/spider.htm
)
200 0 64 (注:200表明找到首页文件index.asp)
由此可以看出,百度蜘蛛的活动,先到网站找robots.txt
这个文件,如果没有则找到网站首页index.asp,和百度目前收录的首页对比后发现和原来没变化,然后走了。和广大站长一样,谁不想自己被百度收录的
页面时不时的快照更新下?看来只有先完善robots.txt ,牵着百度蜘蛛到我站上到处跑了。
二、书写robots.txt ,带百度到你站上四处逛逛。
robots.txt 这个文件必须写。具体怎么写大家都懂吧?不会的话我再重复下
例1. 禁止所有搜索引擎访问网站的任何部分
User-agent: *
Disallow: /
例2. 允许所有的robot访问
(或者也可以建一个空文件 "/robots.txt")
User-agent: *
Disallow:
或者
User-agent: *
Allow: /
(桌子注:这个必须的,不要建空文件,那是百度在放烟。最好写下面一句。)
例3. 仅禁止Baiduspider访问您的网站
User-agent: Baiduspider
Disallow: /
例4. 仅允许Baiduspider访问您的网站
User-agent: Baiduspider
Disallow:
User-agent: *
Disallow: /
例5. 禁止spider访问特定目录
在这个例子中,该网站有三个目录对搜索引擎的访问做了限制,即robot不会访问这三个目录。需要注意的是对每一个目录必须分开声明,而不能写
成 "Disallow: /cgi-bin/ /tmp/"。
User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /~joe/
例6. 允许访问特定目录中的部分url
User-agent: *
Allow: /cgi-bin/see
Allow: /tmp/hi
Allow: /~joe/look
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /~joe/
例7. 使用"*"限制访问url
禁止访问/cgi-bin/目录下的所有以".htm"为后缀的URL(包含子目录)。
User-agent: *
Disallow: /cgi-bin/*.htm
例8. 使用"$"限制访问url
仅允许访问以".htm"为后缀的URL。
User-agent: *
Allow: .htm$
Disallow: /
例9. 禁止访问网站中所有的动态页面
User-agent: *
Disallow: /*?*
例10. 禁止Baiduspider抓取网站上所有图片
仅允许抓取网页,禁止抓取任何图片。
User-agent: Baiduspider
Disallow: .jpg$
Disallow: .jpeg$
Disallow: .gif$
Disallow: .png$
Disallow: .bmp$
例11. 仅允许Baiduspider抓取网页和.gif格式图片
允许抓取网页和gif格式图片,不允许抓取其他格式图片
User-agent: Baiduspider
Allow: .gif$
Disallow: .jpg$
Disallow: .jpeg$
Disallow: .png$
Disallow: .bmp$
例12. 仅禁止Baiduspider抓取.jpg格式图片
User-agent: Baiduspider
Disallow: .jpg$
看看桌子自己写的robots.txt,大家参考
复制代码
User-agent: *
Disallow: /admin/
Disallow: /Soft/
Allow: /images/
Allow: /html/
Allow: .htm$
Allow: .php$
Allow: .asp$
Allow: .gif$
Allow: .jpg$
Allow: .jpeg$
Allow: .png$
Allow: .bmp$
Allow: /
解释:
1、允许各种搜索引擎索引
2、禁止索引/admin目录,这里是网站的后台,当然禁止了
3、禁止/soft等重要安全目录
4、允许访问/images目录
5、允许访问/html目录
6、允许访问所有htm,php,asp,html文件
7、允许抓取gif,jpg,jpeg,png,bmp格式的图片
8、允许抓取网站根目录下的文件。
好了,把你的
robots.txt传到网站跟目录下等着百度蜘蛛再来吧。到时候有这个好向导会带着那个笨蛋到你站上到处走走的。本文作者桌子,由MOFHOT外贸服装
批发网www.mofhot.com
搜集发布,请A5留个连接谢谢~发个文章也不容易的。
文章来自: 站长网(www.admin5.com
)
详文参考:http://www.admin5.com/article/20090606/156451.shtml
相关文章推荐
- 抽象基类不能被实例化?看我怎么破!
- 敢偷用我的WiFi? 看我怎么治你
- 看我怎么扒掉CSDN首页的底裤(python selenium+phantomjs爬取CSDN首页内容)
- 如何查看spider蜘蛛,那么怎么才能知道蜘蛛是否来过你的站?
- 看我怎么把别人的女朋友搞到手的(四)
- 怎么让蜘蛛喜欢你的网站
- 怎么让蜘蛛喜欢你的网站
- 看我是怎么学SLAM(一)——Kinect+Kobuki开发环境总和篇
- 2015--CVTE--android--专业面--看我怎么跪~~
- 百度蜘蛛、Google蜘蛛、360蜘蛛如何辨别?
- 怎么辨别真伪百度蜘蛛的2种方法
- 面对越来越多的高智商小偷,看我怎么收拾他
- 最近Docker淫威太盛,看我怎么扁它!
- 3.网上解决org.apache.commons.lang.xwork.StringUtils的方法都弱爆了,看我怎么解决它!
- 因服务器而导致的蜘蛛抓取失败怎么办
- 被删除的文件怎么恢复,看我支招!
- 安卓R文件clean之后丢失,看我怎么找回来,是不是很奇葩
- 【深入蜘蛛】百度蜘蛛IP段详解
- 看我怎么解决iphone6 plus 摄像头模糊问题
- 看我怎么把别人的女朋友搞到手的(七)