搭建利于SEO的web
2016-09-23 10:34
176 查看
1. 蜘蛛的抓取规则
1.1 只会抓取<a>的href部分
1.2 不会抓取javascript, 也就是不会抓取onclick, 如果<a href="javascript:void(0)" onlick="fun(1);return false;" >a</a> ,蜘蛛是不会执行fun(1)的,蜘蛛只关心href内容, 但是href中却是javascript:void(0); 所以不会执行.
1.3 只会抓取get方式请求的href地址, 不会抓post的href地址, 即href目标地址要允许get请求才行
1.4 虽然有很多帖子说爬虫不会抓动态地址,需要先把地址重写URL, 才会被爬虫抓取. 这点其实不可确定. google很早就申明动态url不会影响爬虫. 回头想想, 有如此多的网站在线上, 不是所有网站技术人员都懂得重写url的. 再说有那么多早期的网站, 如果重写url,岂不是要基本重做了? 如果不重做. 爬虫就抓不到这些网站的信息了? 这明显是不可能的 . 只能说重写url让链接更加标准化,简洁化. 如果是重建项目,或者新项目,不妨重写url.
1.5 通过robots.txt(robots.txt是爬虫访问网站的第一个文件)告诉爬虫哪些哪些规则可以抓,哪些不能抓. (一般前台页面才让抓, 后台管理页面不让抓)
2. 什么是重写url?
2.1 重写URL,就是把带一堆参数的地址,变成规矩的url.
如 http://www.domain.com/a.do?p=1000&v=1001 变成http://www.domain.com/a/1000/1001.do
2.2 重写url其实就是一个过滤器,把原url转换成我们需要的url. java中也有多种方式实现重写URL, 这里不详写.
3. 如何既能用ajax, 又能SEO?
2.1 如<a href="http://www.domain.com/a.do" onclick="fun(1);return false;">a</a>
2.1.1 页面依旧是通过fun(1)实现ajax. 并且通过return false告诉浏览器不执行href的内容
2.1.2 这里的href只是用于给爬虫抓取数据
4. robots.txt 基本语法及注意事项
4.1 User-agent:* 针对所有爬虫设置规则
4.2 Allow Disallow允许访问资源与不允许访问资源.
#把所有图片都列为不允许抓取
Disallow:.jpg$
Disallow:.jpeg$
Disallow:.gif$
Disallow:.png$
Disallow:.bmp$
#只允许抓取的目录
Allow:/site/
Allow:/wap/
注意: Allow和Disallow的顺序. 爬虫引擎只根据第一个匹配成功的Allow,Disallow来确定是否抓取
4.3 通配符
4.3.1 * 表示一个或多个字母的通配符, 比如 Disallow:/testDir/*.html
4.3.2 $表示结尾,如 Disallow:.html$ 表示所有以.html结尾的文件
5. 页面的keywords和description
5.1 现在的爬虫引擎越来越聪明, 已经慢慢淡化了keywords和description的重要性. 而是根据网页内容自动提取. 因此内容是关键,而不是依赖关键字和描述.
5.2 所以建议只需要花一点时间去填写keywords和description即可.不要奢望靠这两个能得到很好的seo排名
5.3 据说大神的网站都是没有这两个meta的.不知道真的假的, 不过还是稍微写写吧
1.1 只会抓取<a>的href部分
1.2 不会抓取javascript, 也就是不会抓取onclick, 如果<a href="javascript:void(0)" onlick="fun(1);return false;" >a</a> ,蜘蛛是不会执行fun(1)的,蜘蛛只关心href内容, 但是href中却是javascript:void(0); 所以不会执行.
1.3 只会抓取get方式请求的href地址, 不会抓post的href地址, 即href目标地址要允许get请求才行
1.4 虽然有很多帖子说爬虫不会抓动态地址,需要先把地址重写URL, 才会被爬虫抓取. 这点其实不可确定. google很早就申明动态url不会影响爬虫. 回头想想, 有如此多的网站在线上, 不是所有网站技术人员都懂得重写url的. 再说有那么多早期的网站, 如果重写url,岂不是要基本重做了? 如果不重做. 爬虫就抓不到这些网站的信息了? 这明显是不可能的 . 只能说重写url让链接更加标准化,简洁化. 如果是重建项目,或者新项目,不妨重写url.
1.5 通过robots.txt(robots.txt是爬虫访问网站的第一个文件)告诉爬虫哪些哪些规则可以抓,哪些不能抓. (一般前台页面才让抓, 后台管理页面不让抓)
2. 什么是重写url?
2.1 重写URL,就是把带一堆参数的地址,变成规矩的url.
如 http://www.domain.com/a.do?p=1000&v=1001 变成http://www.domain.com/a/1000/1001.do
2.2 重写url其实就是一个过滤器,把原url转换成我们需要的url. java中也有多种方式实现重写URL, 这里不详写.
3. 如何既能用ajax, 又能SEO?
2.1 如<a href="http://www.domain.com/a.do" onclick="fun(1);return false;">a</a>
2.1.1 页面依旧是通过fun(1)实现ajax. 并且通过return false告诉浏览器不执行href的内容
2.1.2 这里的href只是用于给爬虫抓取数据
4. robots.txt 基本语法及注意事项
4.1 User-agent:* 针对所有爬虫设置规则
4.2 Allow Disallow允许访问资源与不允许访问资源.
#把所有图片都列为不允许抓取
Disallow:.jpg$
Disallow:.jpeg$
Disallow:.gif$
Disallow:.png$
Disallow:.bmp$
#只允许抓取的目录
Allow:/site/
Allow:/wap/
注意: Allow和Disallow的顺序. 爬虫引擎只根据第一个匹配成功的Allow,Disallow来确定是否抓取
4.3 通配符
4.3.1 * 表示一个或多个字母的通配符, 比如 Disallow:/testDir/*.html
4.3.2 $表示结尾,如 Disallow:.html$ 表示所有以.html结尾的文件
5. 页面的keywords和description
5.1 现在的爬虫引擎越来越聪明, 已经慢慢淡化了keywords和description的重要性. 而是根据网页内容自动提取. 因此内容是关键,而不是依赖关键字和描述.
5.2 所以建议只需要花一点时间去填写keywords和description即可.不要奢望靠这两个能得到很好的seo排名
5.3 据说大神的网站都是没有这两个meta的.不知道真的假的, 不过还是稍微写写吧
相关文章推荐
- 用Tomcat插件搭建可跟踪调试的J2EE WEB开发环境
- 个人用户如何搭建一个全面的WEB服务器(中)
- 各类WEB建设环境开发平台的搭建
- Java Web开发环境搭建
- Eclipse的WEB环境的搭建(转)
- Java Web开发环境搭建(补记)
- 用Tomcat插件在Eclipse上搭建可跟踪调试的J2EE WEB开发环境
- 在Linux上搭建WEB服务器:基本概念、PHP zt
- Eclipse3.2中 Java Web 开发环境的搭建之LOMBOZ+TOMCAT 安装及验证
- iis中搭建多个web站点
- 搭建系统框架发现的三个Web.Config问题
- 手把手教你搭建本地多功能WEB服务器
- 各类WEB建设环境开发平台的搭建
- 搭建系统框架发现的三个Web.Config问题
- 在Linux下搭建Web应用环境(原创) chenyun2000 [原作]
- 在Linux下搭建Web应用环境(原创)
- 9.1 Eclipse的WEB环境的搭建 (转)
- winwebmail轻松搭建邮件服务器
- 搭建高效、可靠、稳定的WEB服务器
- Web 2.0技术对SEO的影响