您的位置：首页 > 大数据 > 人工智能

robots.txt 指南--介绍 [翻译]

2006-02-01 06:40 323 查看

原文：http://javascriptkit.com/howto/robots.shtml

译者：Tony Qu，BluePrint翻译团队

有一种力量其实一直在渗入大量的网站和页面，我们通常看不到它们，而且它们通常也很蛮横，大部分人甚至不知道它的存在，大家不要误会，其实我说得是搜索引
擎爬虫和机器人。每天，上百个这样的爬虫会出来对网站进行快速的搜索。不管是不是google打算对整个网络进行索引，还是spam机器人打算收集大量的
email地址，通常它们这样的寻找是漫无目的的。作为网站拥有者，我们可以通过一个叫做robots.txt的文件来控制哪些动作是机器人可以做的。

创建robots.txt文件
好，现在我们开始行动。创建一个叫robots.txt的文本文件，请确保它的文件名是
正确的。该文件必须上传到在您的网站的根目录下，而不是二级目录下（例如，应该是http://www.mysite.com，而不是http:
//www.mysite.com/stuff），只有满足以上两点，即文件名正确和路径正确，搜索引擎才会根据该文件中的规则工作，否则
robots.txt仅仅只是个常规文件而已，没有任何作用。

现在，你已经知道如果这个文件该如何命名，以及应该把它上传在何处，接下来你会学习在这个文件中键入命令，搜索引擎会遵循一个叫做“机器人排除协议”(Robots Exclusion
Protocol)的协议。其实，它的格式很简单，并且能够满足大多数的控制需要。首先是一行USERAGENT用来识别爬虫类型，紧跟着的是一行或者多行DISALLOW，这些行是用来限制爬虫访问网站的一些部分的。

1) robots.txt基本设置
User-agent: *
Disallow: /

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签： 搜索引擎 google email user 工作网络

相关文章推荐

新的分享

章节导航