控制搜索引擎访问和索引你的网站
2007-10-27 08:55
369 查看
2007年10月08日 06:06:00
发表者 Dan Crow, 产品经理
转载自谷歌中文网站管理员博客
原文:Controlling how search engines access and index your website
发表于: 2007 年 1 月 26 日 上午 11:36:00
我 经常被问到 Google(谷歌)和搜索引擎是怎样运转的。一个核心问题是:谷歌是怎样知道一个网站的哪些部分是网站所有者想让它们显示在搜索结果中?网站内容发布者 能够指定部分网站不被搜索吗?好消息是,网站内容发布者可以使用很多方法控制你们的网页在搜索结果中的显示。
文件 robots.txt 是这里的主角,该文件已经成为业界标准好多年了。它让一个网站所有者控制搜索引擎访问他们的网站。你可以用 robots.txt 不同层次地控制访问,比如让搜索引擎只访问整个网站,单个目录,特定类型的网页,或者某一网页。有效地使用 robots.txt 能让你更好地控制对你的网站 的搜索,但是如何达到这一目标不是很显而易见的。这是我们关于如何使用 robots.txt 来控制对你的网站的存取的一系列帖子的第一篇。
文件 robots.txt 有什么用?
互联网真的很大。你只是不相信它是怎样地无穷无尽地大。你也许认为维护网站耗费好多精力,但是那只是"网海一粟"。 (对 Douglas Adams 致以诚挚的道歉)
象谷歌这样的搜索引擎会读取所有信息并对这些信息索引,索引是为了让一个搜索引擎对一些用户查询显示与之相匹配的网页。
为了做到这一点谷歌的一些电脑不断抓取网站,他们有一个谷歌所知道的所有网站的名单,他们阅读每个网站的所有网页。所有这些机器被称为谣 Googlebot。一般来说,你是愿意让 Googlebot 访问你的网站,这样你的网页才可以被人们在谷歌搜到。
然 而,对你的网站上的某几页,你可能不想让谷歌索引。举例来说,你可能有一个目录包含内部日志,或者你可能有些新闻文章只能在支付费用后才能访问。你可以通 过创建一个文本文件名为 robots.txt 的文件并把它放置在根目录下来告诉谷歌爬虫不要去抓取他们。文件 robots.txt 包含了一个搜索引擎不能访问的页面的清单。创建一个 robots.txt 是直截了当的,它允许你用一套精密分层控制搜索引擎对你网站的访问。
精细控制
除 了 robots.txt 文件让您为你的一大堆文件简洁明了给出指令外,你也可以利用 robots META 标签来精确控制对你的单个网页的访问。为了做到这一点,你只需要对你的 HTML 网页添加特定的 META 标签来控制怎样对单个网页索引。归而总之,robots.txt 和 META 标签让你更灵活地表达复杂的访问规定变得比较容易。
一个简单的例子
这里是一个简单的例子,它是一个 robots.txt 文件。
User-Agent: Googlebot
Disallow: /logs/
User -Agent 行指明下面部分的一套指令只是为 Googlebot。所有主要搜索引擎都阅读并听从你放在 robots.txt 的指令。只要你愿意,你可以为不同的搜索引擎指定不同的规则。Disallow 行告诉 Googlebot 不能进入你网站的档案日志子目录。你放在日志目录中的内容将不会显示在谷歌搜索 结果中。
禁止访问单个文件
如果你有一篇只有注册用户才能访问的文章,你一定想让它排除在谷歌的结果之外。为了做到这一点,你只需要在该文章对应的 HTML 文件中添加一个 META 标签。该文件的代码的最开始有点像:
>html<
>head<
>meta name="googlebot" content="noindex"<
...
这段代码会阻止谷歌索引此文件。标签 META 特别有用,如果你只被允许编辑单个文件,而不是全站的 robots.txt。他们还允许你逐页地指定复杂的访问控制规定。
了解更多
你可以在 http://www.robotstxt.org/ 和谷歌的站长帮助中心找到更多有关 robots.txt 的更多有用信息,包括:
如何构造一个 robots.txt 文件
对谷歌使用的每个 User-agent 的描述
如何使用模式匹配
要多久我们才重新抓取您的 robots.txt 文件?
我们也在我们的站长博客里写了一些关于 robots.txt 的帖子,也许对你有用。例如:
使用 robots.txt 文件
Googlebot 汇总
这里还有一个主要搜索引擎使用的机器人的有用清单:http://www.robotstxt.org/wc/active/html/index.html
下次..
即将推出:关于详述 robots 和 metatags 使用的帖子,和关于一些对常见情况的具体例子。
Trackback: http://tb.blog.csdn.net/TrackBack.aspx?PostId=1814608
发表者 Dan Crow, 产品经理
转载自谷歌中文网站管理员博客
原文:Controlling how search engines access and index your website
发表于: 2007 年 1 月 26 日 上午 11:36:00
我 经常被问到 Google(谷歌)和搜索引擎是怎样运转的。一个核心问题是:谷歌是怎样知道一个网站的哪些部分是网站所有者想让它们显示在搜索结果中?网站内容发布者 能够指定部分网站不被搜索吗?好消息是,网站内容发布者可以使用很多方法控制你们的网页在搜索结果中的显示。
文件 robots.txt 是这里的主角,该文件已经成为业界标准好多年了。它让一个网站所有者控制搜索引擎访问他们的网站。你可以用 robots.txt 不同层次地控制访问,比如让搜索引擎只访问整个网站,单个目录,特定类型的网页,或者某一网页。有效地使用 robots.txt 能让你更好地控制对你的网站 的搜索,但是如何达到这一目标不是很显而易见的。这是我们关于如何使用 robots.txt 来控制对你的网站的存取的一系列帖子的第一篇。
文件 robots.txt 有什么用?
互联网真的很大。你只是不相信它是怎样地无穷无尽地大。你也许认为维护网站耗费好多精力,但是那只是"网海一粟"。 (对 Douglas Adams 致以诚挚的道歉)
象谷歌这样的搜索引擎会读取所有信息并对这些信息索引,索引是为了让一个搜索引擎对一些用户查询显示与之相匹配的网页。
为了做到这一点谷歌的一些电脑不断抓取网站,他们有一个谷歌所知道的所有网站的名单,他们阅读每个网站的所有网页。所有这些机器被称为谣 Googlebot。一般来说,你是愿意让 Googlebot 访问你的网站,这样你的网页才可以被人们在谷歌搜到。
然 而,对你的网站上的某几页,你可能不想让谷歌索引。举例来说,你可能有一个目录包含内部日志,或者你可能有些新闻文章只能在支付费用后才能访问。你可以通 过创建一个文本文件名为 robots.txt 的文件并把它放置在根目录下来告诉谷歌爬虫不要去抓取他们。文件 robots.txt 包含了一个搜索引擎不能访问的页面的清单。创建一个 robots.txt 是直截了当的,它允许你用一套精密分层控制搜索引擎对你网站的访问。
精细控制
除 了 robots.txt 文件让您为你的一大堆文件简洁明了给出指令外,你也可以利用 robots META 标签来精确控制对你的单个网页的访问。为了做到这一点,你只需要对你的 HTML 网页添加特定的 META 标签来控制怎样对单个网页索引。归而总之,robots.txt 和 META 标签让你更灵活地表达复杂的访问规定变得比较容易。
一个简单的例子
这里是一个简单的例子,它是一个 robots.txt 文件。
User-Agent: Googlebot
Disallow: /logs/
User -Agent 行指明下面部分的一套指令只是为 Googlebot。所有主要搜索引擎都阅读并听从你放在 robots.txt 的指令。只要你愿意,你可以为不同的搜索引擎指定不同的规则。Disallow 行告诉 Googlebot 不能进入你网站的档案日志子目录。你放在日志目录中的内容将不会显示在谷歌搜索 结果中。
禁止访问单个文件
如果你有一篇只有注册用户才能访问的文章,你一定想让它排除在谷歌的结果之外。为了做到这一点,你只需要在该文章对应的 HTML 文件中添加一个 META 标签。该文件的代码的最开始有点像:
>html<
>head<
>meta name="googlebot" content="noindex"<
...
这段代码会阻止谷歌索引此文件。标签 META 特别有用,如果你只被允许编辑单个文件,而不是全站的 robots.txt。他们还允许你逐页地指定复杂的访问控制规定。
了解更多
你可以在 http://www.robotstxt.org/ 和谷歌的站长帮助中心找到更多有关 robots.txt 的更多有用信息,包括:
如何构造一个 robots.txt 文件
对谷歌使用的每个 User-agent 的描述
如何使用模式匹配
要多久我们才重新抓取您的 robots.txt 文件?
我们也在我们的站长博客里写了一些关于 robots.txt 的帖子,也许对你有用。例如:
使用 robots.txt 文件
Googlebot 汇总
这里还有一个主要搜索引擎使用的机器人的有用清单:http://www.robotstxt.org/wc/active/html/index.html
下次..
即将推出:关于详述 robots 和 metatags 使用的帖子,和关于一些对常见情况的具体例子。
Trackback: http://tb.blog.csdn.net/TrackBack.aspx?PostId=1814608
相关文章推荐
- 控制搜索引擎访问和索引你的网站
- 如何控制搜索引擎访问和索引你的网站?
- 控制搜索引擎访问和索引你的网站
- RHEL 5服务篇—使用Apache搭建web网站(二)客户端访问控制
- 使用Python控制IE访问网站
- USB KEY身份认证管理系统及网站访问控制方案(一)
- 网站优化-搜索引擎访问分析
- Nginx提供网站服务应用包括(虚拟主机、用户访问控制、用户验证、nginx平滑升级、防盗链)的配置
- 怎样控制搜索引擎抓取我们网站的哪些内容?
- 防止搜索引擎过快访问网站的方法
- 记录在四大搜索引擎上检查网站被索引页面的总数
- 禁止所有搜索引擎访问网站的任何部分
- nat123外网访问内网网站FTP数据库远程控制等等
- wordpress网站没有写robots.txt,搜索引擎却能访问
- 判断访问你网站的搜索引擎还是真实用户
- 根据 crazycode的建议,修改通过IP控制权限访问网站的部分代码
- 网站访问过的系统平台,浏览器,手机,搜索引擎的Agent
- 为什么搜索引擎能索引到需要注册才能访问的论坛帖子
- USB KEY身份认证管理系统及网站访问控制方案(二)
- Passbay USB Token网站访问控制方案(Usb Key身份认证)简介