robots.txt 指南--介绍 [翻译]
2006-02-01 06:40
323 查看
原文:http://javascriptkit.com/howto/robots.shtml
译者:Tony Qu,BluePrint翻译团队
有一种力量其实一直在渗入大量的网站和页面,我们通常看不到它们,而且它们通常也很蛮横,大部分人甚至不知道它的存在,大家不要误会,其实我说得是搜索引
擎爬虫和机器人。每天,上百个这样的爬虫会出来对网站进行快速的搜索。不管是不是google打算对整个网络进行索引,还是spam机器人打算收集大量的
email地址,通常它们这样的寻找是漫无目的的。作为网站拥有者,我们可以通过一个叫做robots.txt的文件来控制哪些动作是机器人可以做的。
创建robots.txt文件
好,现在我们开始行动。创建一个叫robots.txt的文本文件,请确保它的文件名是
正确的。该文件必须上传到在您的网站的根目录下,而不是二级目录下(例如,应该是http://www.mysite.com,而不是http:
//www.mysite.com/stuff),只有满足以上两点,即文件名正确和路径正确,搜索引擎才会根据该文件中的规则工作,否则
robots.txt仅仅只是个常规文件而已,没有任何作用。
现在,你已经知道如果这个文件该如何命名,以及应该把它上传在何处,接下来你会学习在这个文件中键入命令,搜索引擎会遵循一个叫做“机器人排除协议”(Robots Exclusion
Protocol)的协议。其实,它的格式很简单,并且能够满足大多数的控制需要。首先是一行USERAGENT用来识别爬虫类型,紧跟着的是一行或者多行DISALLOW,这些行是用来限制爬虫访问网站的一些部分的。
1) robots.txt基本设置
User-agent: *
Disallow: /
译者:Tony Qu,BluePrint翻译团队
有一种力量其实一直在渗入大量的网站和页面,我们通常看不到它们,而且它们通常也很蛮横,大部分人甚至不知道它的存在,大家不要误会,其实我说得是搜索引
擎爬虫和机器人。每天,上百个这样的爬虫会出来对网站进行快速的搜索。不管是不是google打算对整个网络进行索引,还是spam机器人打算收集大量的
email地址,通常它们这样的寻找是漫无目的的。作为网站拥有者,我们可以通过一个叫做robots.txt的文件来控制哪些动作是机器人可以做的。
创建robots.txt文件
好,现在我们开始行动。创建一个叫robots.txt的文本文件,请确保它的文件名是
正确的。该文件必须上传到在您的网站的根目录下,而不是二级目录下(例如,应该是http://www.mysite.com,而不是http:
//www.mysite.com/stuff),只有满足以上两点,即文件名正确和路径正确,搜索引擎才会根据该文件中的规则工作,否则
robots.txt仅仅只是个常规文件而已,没有任何作用。
现在,你已经知道如果这个文件该如何命名,以及应该把它上传在何处,接下来你会学习在这个文件中键入命令,搜索引擎会遵循一个叫做“机器人排除协议”(Robots Exclusion
Protocol)的协议。其实,它的格式很简单,并且能够满足大多数的控制需要。首先是一行USERAGENT用来识别爬虫类型,紧跟着的是一行或者多行DISALLOW,这些行是用来限制爬虫访问网站的一些部分的。
1) robots.txt基本设置
User-agent: *
Disallow: /
相关文章推荐
- robots.txt 指南--介绍 [翻译]
- robots.txt 指南--介绍 [翻译]
- robots.txt 指南--介绍 [翻译]
- [翻译]robots.txt 指南--介绍
- robots.txt 指南--介绍
- robots.txt的介绍和写作
- jbpm用户指南翻译:第1章 介绍
- Robots.txt使用指南
- robots.txt详细介绍
- windows8.1 快速使用指南(英文原版 + 中文翻译版txt)
- Robots.txt 配置介绍
- 翻译 cocoa编码指南介绍
- robots.txt详细介绍
- robots.txt详细介绍
- iOS 开发 深入浅出Runtime运行时之官方指南翻译--runtime介绍
- robots.txt写法介绍与wordpress中的写法推荐
- robots.txt 文件指南
- 网络爬虫排除协议robots.txt介绍及写法详解.
- 网络爬虫排除协议robots.txt介绍及写法详解.
- robots.txt和robots Meta标签的介绍