您的位置:首页 > 其它

一些搜索引擎方面的个人笔记

2012-01-19 22:25 232 查看
当今SEO非常popular,在此我记录了一些看搜索引擎书籍后的笔记。

SEO的要求以及特点可以用:查的快、查的准、查的全来概述,了解SEO首先从他的下载系统开始说起,所有的网站信息首先通过下载系统获得,那么让我从spider说起,也就是大家所知的爬虫,通过它来介绍下载系统。说起抓起网页,可以分为深度优先遍历、宽度优先遍历,那么网站url的复杂性如何能让爬虫更好的抓取呢?

1992年,Rivest描述了MD5签名算法的原理,把爬虫抓取到的信息存放到哈希表的某一个槽位中,通过判断,解决不重复抓取的问题。但是仍然存在问题,万维网错中复杂,存在很多路径可以到达指定的网页,因此解决这个也是个难题,在这里,采用深度策略跟宽度优先遍历相结合的方法来保证抓取过程。

但是爬虫工作负荷有限,必须有选择的抓取重要度高的网页,因此出现了网页抓取有限策略,重要性度量由链接欢迎度、链接重要度和平均链接深度3个方面决定。同时为了及时的了解每个网页的变化,网页重放策略也很重要。爬虫在抓取的过程要遵守Robots协议,介于到爬虫大得工作负荷,抓取速度的提升也至关重要,抓取提速策略,下载系统主要通过爬虫以及调度员构成,下载系统中的网页库非常重要,具体的可以查询相关资料。以上是我对SEO----下载系统的心得笔记。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息