您的位置:首页 > 其它

搭建利于SEO的web

2016-09-23 10:34 176 查看
1. 蜘蛛的抓取规则

1.1 只会抓取<a>的href部分

1.2 不会抓取javascript,  也就是不会抓取onclick, 如果<a href="javascript:void(0)" onlick="fun(1);return false;" >a</a> ,蜘蛛是不会执行fun(1)的,蜘蛛只关心href内容, 但是href中却是javascript:void(0); 所以不会执行.

1.3 只会抓取get方式请求的href地址, 不会抓post的href地址, 即href目标地址要允许get请求才行

1.4 虽然有很多帖子说爬虫不会抓动态地址,需要先把地址重写URL, 才会被爬虫抓取. 这点其实不可确定. google很早就申明动态url不会影响爬虫. 回头想想, 有如此多的网站在线上, 不是所有网站技术人员都懂得重写url的. 再说有那么多早期的网站, 如果重写url,岂不是要基本重做了? 如果不重做. 爬虫就抓不到这些网站的信息了? 这明显是不可能的 . 只能说重写url让链接更加标准化,简洁化. 如果是重建项目,或者新项目,不妨重写url.

1.5 通过robots.txt(robots.txt是爬虫访问网站的第一个文件)告诉爬虫哪些哪些规则可以抓,哪些不能抓. (一般前台页面才让抓, 后台管理页面不让抓)

2. 什么是重写url?

2.1 重写URL,就是把带一堆参数的地址,变成规矩的url.

http://www.domain.com/a.do?p=1000&v=1001 变成http://www.domain.com/a/1000/1001.do 

2.2 重写url其实就是一个过滤器,把原url转换成我们需要的url. java中也有多种方式实现重写URL, 这里不详写.

3. 如何既能用ajax, 又能SEO?

2.1 如<a href="http://www.domain.com/a.do" onclick="fun(1);return false;">a</a>

2.1.1 页面依旧是通过fun(1)实现ajax. 并且通过return false告诉浏览器不执行href的内容

2.1.2 这里的href只是用于给爬虫抓取数据

4. robots.txt 基本语法及注意事项

4.1  User-agent:*  针对所有爬虫设置规则

4.2  Allow Disallow允许访问资源与不允许访问资源. 

#把所有图片都列为不允许抓取

Disallow:.jpg$

Disallow:.jpeg$

Disallow:.gif$

Disallow:.png$

Disallow:.bmp$

#只允许抓取的目录

Allow:/site/

Allow:/wap/

注意: Allow和Disallow的顺序. 爬虫引擎只根据第一个匹配成功的Allow,Disallow来确定是否抓取

4.3 通配符

4.3.1 * 表示一个或多个字母的通配符, 比如 Disallow:/testDir/*.html

4.3.2 $表示结尾,如  Disallow:.html$ 表示所有以.html结尾的文件

5. 页面的keywords和description

5.1 现在的爬虫引擎越来越聪明, 已经慢慢淡化了keywords和description的重要性. 而是根据网页内容自动提取. 因此内容是关键,而不是依赖关键字和描述.

5.2 所以建议只需要花一点时间去填写keywords和description即可.不要奢望靠这两个能得到很好的seo排名

5.3 据说大神的网站都是没有这两个meta的.不知道真的假的, 不过还是稍微写写吧
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: