您的位置:首页 > 其它

robots.txt写法介绍与wordpress中的写法推荐

2013-06-06 10:51 519 查看
robots.txt的简单介绍: robots.txt是一个纯文本文件,robots.txt文件用以告诉搜索引擎哪些网页可以收录,哪些不允许收录。搜索引擎蜘蛛 spider(Googlebot/Baiduspider)来访问你的网站页面的时候,首先会查看你的网站根目录下是否有robots.txt文件,如果有则按照里面设置的规则权限对你网站页面进行抓取和索引。

robots.txt的作用介绍: 通过设置屏蔽搜索引擎访问不必要被收录的网站页面,可以大大减少因spider抓取页面所占用的网站带宽,小网站不明显,大型网站就很明显了。 设置robots.txt可以指定google或百度不去索引哪些网址,比如我们通过url重写将动态网址静态化为永久固定链接之后,就可以通过robots.txt设置权限,阻止Google或百度等搜索引擎索引那些动态网址,从而大大减少了网站重复页面,对SEO优化起到了很明显的作用。

robots.txt写法注意事项: 1:如果你的站点对所有搜索引擎公开,则不用做这个文件或者robots.txt为空就行。 2:robots.txt必须放置在一个站点的根目录下,在子目录下无效。如:通过http://yourdomain/robots.txt 可以成功访问到,则说明本站的放置正确。如:http://www.wuhongge.cn/robots.txt 3:robots.txt,User-agent,Disallow等必须注意大小写,不能变化。 4:User-agent,Disallow等后面的冒号必须是英文状态下的,冒号后面可以空一格,也可以不空格。 5:User-agent表示搜索引擎spider:星号“*”代表所有spider,Google的spider是“Googlebot”,百度是“Baiduspider”。 6:Disallow:表示不允许搜索引擎访问和索引的目录。至少要有一个Disallow函数,如果都允许收录,则写: Disallow: ,如果都不允许收录,则写:Disallow: / (一个反斜杠,表示根目录)。

下面讲讲wordpress的robots.txt怎么写(写法):

1:最常用,开放的写法,不作任何限制:

User-agent: * Disallow:


2:最简单的严格写法:

User-agent: * Disallow: /wp-* #Allow: /wp-content/uploads/ Disallow: /*.php$ Disallow: /*.inc$ Disallow: /*.js$ Disallow: /*.css$ Disallow: /?s=


允许所有蜘蛛访问,限制以“wp-”开头的目录及文件,限制抓取.php文件、.inc文件、.js文件、.css文件,限制抓取搜索结果。

Disallow: /wp-* 会连同附件目录一起限制抓取,如果想让搜索引擎抓取附件中的内容,将第三行的 # 号注释去掉。Allow 不是所有搜索引擎都支持。

3:合理的写法:

User-agent: * Disallow: /wp-admin Disallow: /wp-content/plugins Disallow: /wp-content/themes Disallow: /wp-includes Disallow: /?s= Sitemap: http://www.wuhongge.cn/sitemap.xml[/code] 
允许所有搜索引擎抓取,逐一列举需要限制的目录,限制抓取搜索结果。

最后包含sitemap.xml地址。可以使用 Google管理员工具,登录后访问“工具 -> 分析 robots.txt”,检查文件有效性(也可以百度搜索一下其它的robots.txt检测工具)。

robots.txt其他写法简介:

Disallow: /page/
#限制抓取Wordpress分页
Disallow: /category/*/page/*
#限制抓取分类的分页
Disallow: /tag/
#限制抓取标签页面
Disallow: */trackback/
#限制抓取Trackback内容
Disallow: /category/*
#限制抓取所有分类列表
Disallow: /feed/
#限制抓取rss更新源

我的robots.txt:

User-agent: * Disallow: /cgi-bin Disallow: /feed/ Disallow: /comments/feed Disallow: /trackback Disallow: /comments Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-content/themes Disallow: /wp-content/plugins Sitemap: http://www.wuhongge.cn/sitemap_baidu.xml Sitemap: http://www.wuhongge.cn/sitemap.xml Sitemap: http://www.wuhongge.cn/sitemap.xml.gz Sitemap: http://www.wuhongge.cn/sitemap.html[/code] 
说明一下,这个robots.txt文件允许博客被所有搜索引擎收录,但是不允许蜘蛛访问cgi-bin文件夹以及部分wp开头的文件,这主要是为了博客的安全。此外,不允许搜索引擎蜘蛛访问feed及comments的feed文件,主要是为了避免重复内容,这一点百度尤其重视,将wordpress 的很多页面视为重复内容,这也是wordpress博客在百度中排名不高的原因之一。禁止访问trackback和comments是为了避免垃圾评论和垃圾引用。后面写上百度和google的sitemap文件地址。

ps:robots.txt文件写法不是固定不变的,只要语法正确你怎么写都可以,所以可以根据自己的要求书写。

注意:robots.txt”这个文件名必须为小写!否则搜索引擎不会识别!
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: