nofollow和robots.txt正确使用方法
2016-10-08 15:59
302 查看
一.了解nofollow作用及其使用方法:
nofollow 是一个HTML标签的属性值。这个标签的意义是告诉搜索引擎"不要追踪此网页上的链接或不要追踪此特定链接"。nofollow有两种用法:1.用于meta元标签:<metaname="robots" content="nofollow" />,告诉爬虫该页面上所有链接都无需追踪。2.用于a标签:<ahref="login.aspx" rel="nofollow">登录</a>,告诉爬虫该页面无需追踪。nofollow主要有三个作用:1.防止不可信的内容,最常见的是博客上的垃圾留言与评论中为了获取外链的垃圾链接,为了防止页面指向一些拉圾页面和站点。2.付费链接:为了防止付费链接影响Google的搜索结果排名,Google建议使用nofollow属性。3.引导爬虫抓取有效的页面:避免爬虫抓取一些无意义的页面,影响爬虫抓取的效率。
二.了解robots.txt作用及其使用方法:
robots.txt就是一份网站和搜索引擎双方签订的规则协议书,是搜索引擎中访问网站的时候要查看的第一个文件。首先爬行来检查该站点根目录下是否存在robots.txt。如果存在,蜘蛛就按照协议上规定爬行抓取;没有robots.txt,蜘蛛会随着链接爬行进行抓取。
理解User-agent和Disallow的定义:
User-agent:该项用于描述搜索引擎蜘蛛的名字;Disallow:该项用于描述不希望被抓取和索引的一个URL,这个URL可以是一条完整的路径
下面是一些robots.txt基本的用法:
1、禁止所有搜索引擎访问网站的任何部分:
User-agent: *
Disallow: /
2、允许所有的robot访问
User-agent: *
Disallow:
或者也可以建一个空文件robots.txt
3、禁止所有搜索引擎访问网站的几个部分(下例中的cgi-bin、tmp、private目录)
User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /private/
4、禁止某个搜索引擎的访问(下例中的BadBot)
User-agent: BadBot
Disallow: /
5、只允许某个搜索引擎的访问(下例中的WebCrawler)
User-agent: WebCrawler
Disallow:
User-agent: *
Disallow: /
三.robots文件与nofollow标签的共同点:
从SEO出发,robots文件与nofollow的共同特点只有一个,就是为了网站优化,为了SEO,从而提升网站排名。既然对SEO有利,那么我们做SEO就必须要熟悉和了解如何使用robots文件与nofollow标签。
了解更多请关注悠悠SEO:http://zhouail.com/
相关文章推荐
- robots.txt文件使用方法总结
- robots.txt的正确使用
- robots.txt作用&使用方法
- (摘抄)禁止搜索引擎收录的方法(robots.txt文件的使用)
- robots.txt文件配置和使用方法详解
- 网站所用的robots.txt基本使用方法
- 通过Robots.txt禁止搜索引擎收录的方法
- 将图片插入数据库并使用asp.net读取出来的正确方法
- 重要知识:身份证复印件的正确使用方法
- 如何正确的使用Timer的schedule()方法?
- 身份证的正确使用方法——很重要的知识(转贴)
- 将图片插入数据库并使用asp.net读取出来的正确方法
- JProfiler在Linux下的正确使用方法
- SPSS软件包中非参数检验方法的正确使用
- [转]如何使用robots.txt FROM 谷歌黑板报
- 如何使用robots.txt
- 如何正确使用List中的toArray()方法
- Atlas M3: ErrorTemplate正确使用方法
- 【重要知识】身份证复印件的正确使用方法
- 身份证复印件的正确使用方法