一些搜索引擎方面的个人笔记
2012-01-19 22:25
232 查看
当今SEO非常popular,在此我记录了一些看搜索引擎书籍后的笔记。
SEO的要求以及特点可以用:查的快、查的准、查的全来概述,了解SEO首先从他的下载系统开始说起,所有的网站信息首先通过下载系统获得,那么让我从spider说起,也就是大家所知的爬虫,通过它来介绍下载系统。说起抓起网页,可以分为深度优先遍历、宽度优先遍历,那么网站url的复杂性如何能让爬虫更好的抓取呢?
1992年,Rivest描述了MD5签名算法的原理,把爬虫抓取到的信息存放到哈希表的某一个槽位中,通过判断,解决不重复抓取的问题。但是仍然存在问题,万维网错中复杂,存在很多路径可以到达指定的网页,因此解决这个也是个难题,在这里,采用深度策略跟宽度优先遍历相结合的方法来保证抓取过程。
但是爬虫工作负荷有限,必须有选择的抓取重要度高的网页,因此出现了网页抓取有限策略,重要性度量由链接欢迎度、链接重要度和平均链接深度3个方面决定。同时为了及时的了解每个网页的变化,网页重放策略也很重要。爬虫在抓取的过程要遵守Robots协议,介于到爬虫大得工作负荷,抓取速度的提升也至关重要,抓取提速策略,下载系统主要通过爬虫以及调度员构成,下载系统中的网页库非常重要,具体的可以查询相关资料。以上是我对SEO----下载系统的心得笔记。
SEO的要求以及特点可以用:查的快、查的准、查的全来概述,了解SEO首先从他的下载系统开始说起,所有的网站信息首先通过下载系统获得,那么让我从spider说起,也就是大家所知的爬虫,通过它来介绍下载系统。说起抓起网页,可以分为深度优先遍历、宽度优先遍历,那么网站url的复杂性如何能让爬虫更好的抓取呢?
1992年,Rivest描述了MD5签名算法的原理,把爬虫抓取到的信息存放到哈希表的某一个槽位中,通过判断,解决不重复抓取的问题。但是仍然存在问题,万维网错中复杂,存在很多路径可以到达指定的网页,因此解决这个也是个难题,在这里,采用深度策略跟宽度优先遍历相结合的方法来保证抓取过程。
但是爬虫工作负荷有限,必须有选择的抓取重要度高的网页,因此出现了网页抓取有限策略,重要性度量由链接欢迎度、链接重要度和平均链接深度3个方面决定。同时为了及时的了解每个网页的变化,网页重放策略也很重要。爬虫在抓取的过程要遵守Robots协议,介于到爬虫大得工作负荷,抓取速度的提升也至关重要,抓取提速策略,下载系统主要通过爬虫以及调度员构成,下载系统中的网页库非常重要,具体的可以查询相关资料。以上是我对SEO----下载系统的心得笔记。
相关文章推荐
- Oracle DBA 的个人复习笔记——一些简单的Oracle内部简介(3)
- CSS中的textarea的一些设置之resize属性(个人笔记)
- Service Mesh的一些开源项目,纯属个人笔记
- <android> 常用但容易忘记的一些代码和技巧 汇总(个人笔记)
- 一些个人笔记(java第一季)
- 信号处理方面一些牛人的个人主页(来自百思)
- 学习nutch搜索引擎的一些笔记
- 个人理财方面的一些小常识
- 关于smarty的一些个人笔记
- 【笔记】css浮动的一些个人见解
- 个人随手笔记:关于python的一些问题
- 个人理财方面的一些小常识
- 一些个人的对帮助自己更好理解“对象”的一些笔记
- 关于正则表达式的一些个人笔记
- 整理个人笔记Linux的一些常用命令
- JAVA学习笔记(5)_____String对象比较的一些个人见解
- XMLHttpReques和window.event的一点笔记(这只是个人的一些笔记,记下来只是为了备忘)
- 存储方面一些专业术语解释,个人整理(不断更新)
- 【个人笔记】syslog-ng(下一代系统日志工具)的一些笔记
- 个人笔记-记录一些小的细节即函数用法