您的位置：首页 > 运维架构 > 网站架构

如何控制搜索引擎访问和索引你的网站？

2007-09-12 18:12 309 查看

精细控制

除了robots.txt文件让您为你的一大堆文件简洁明了给出指令外，你也可以利用robots META 标签来精确控制对你的单个网页的访问。为了做到这一点，你只需要对你的HTML网页添加特定的META标签来控制怎样对单个网页索引。归而总之， robots.txt和META标签让你更灵活地表达复杂的访问规定变得比较容易。

一个简单的例子

这里是一个简单的例子，它是一个robots.txt文件。

User-Agent: Googlebot

Disallow: /logs/

User -Agent行指明下面部分的一套指令只是为Googlebot。所有主要搜索引擎都阅读并听从你放在robots.txt的指令。只要你愿意，你可以为不同的搜索引擎指定不同的规则。Disallow行告诉Googlebot不能进入你网站的档案日志子目录。你放在日志目录中的内容将不会显示在谷歌搜索结果中。

禁止访问单个文件如果你有一篇只有注册用户才能访问的文章，你一定想让它排除在谷歌的结果之外。为了做到这一点，你只需要在该文章对应的HTML文件中添加一个META标签。该文件的代码的最开始有点像：

<html>

<head>

<meta name="googlebot" content="noindex">

...

这段代码会阻止谷歌索引此文件。标签META特别有用，如果你只被允许编辑单个文件，而不是全站的robots.txt。他们还允许你逐页地指定复杂的访问控制规定。

了解更多

你可以在http://www.robotstxt.org/和谷歌的站长帮助中心找到更多有关robots.txt的更多有用信息，包括：

如何构造一个robots.txt文件
对谷歌使用的每个User-agent的描述
如何使用模式匹配
要多久我们才重新抓取您的robots.txt文件？

我们也在我们的站长博客里写了一些关于robots.txt的帖子，也许对你有用。例如：

使用robots.txt文件
Googlebot汇总

这里还有一个主要搜索引擎使用的机器人的有用清单：http://www.robotstxt.org/wc/active/html/index.html

下次… …

即将推出：关于详述robots和metatags使用的帖子，和关于一些对常见情况的具体例子。

文章引用：Controlling how search engines access and index your website

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航