您的位置：首页 > 其它

一些搜索引擎方面的个人笔记

2012-01-19 22:25 232 查看

当今SEO非常popular，在此我记录了一些看搜索引擎书籍后的笔记。

SEO的要求以及特点可以用：查的快、查的准、查的全来概述,了解SEO首先从他的下载系统开始说起，所有的网站信息首先通过下载系统获得,那么让我从spider说起，也就是大家所知的爬虫,通过它来介绍下载系统。说起抓起网页，可以分为深度优先遍历、宽度优先遍历，那么网站url的复杂性如何能让爬虫更好的抓取呢？

1992年，Rivest描述了MD5签名算法的原理，把爬虫抓取到的信息存放到哈希表的某一个槽位中，通过判断，解决不重复抓取的问题。但是仍然存在问题，万维网错中复杂，存在很多路径可以到达指定的网页，因此解决这个也是个难题，在这里，采用深度策略跟宽度优先遍历相结合的方法来保证抓取过程。

但是爬虫工作负荷有限，必须有选择的抓取重要度高的网页，因此出现了网页抓取有限策略，重要性度量由链接欢迎度、链接重要度和平均链接深度3个方面决定。同时为了及时的了解每个网页的变化，网页重放策略也很重要。爬虫在抓取的过程要遵守Robots协议，介于到爬虫大得工作负荷，抓取速度的提升也至关重要，抓取提速策略，下载系统主要通过爬虫以及调度员构成，下载系统中的网页库非常重要，具体的可以查询相关资料。以上是我对SEO----下载系统的心得笔记。

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签： 搜索引擎工作算法 url

相关文章推荐

新的分享

章节导航