搜索引擎的蜘蛛程序、目录索引工作原理
2007-08-09 17:55
1391 查看
要进行搜索引擎优化,首先要知道搜索引擎是如何工作的,只有知道搜索引擎是如何工作的以后,才能更好的 进行优化工作,做出对于搜索引擎更加友好的网站,这样才会有好的排名。
搜索引擎最主要的由三部分组成:蜘蛛程序、索引和软件。下面我们拿Google举例。
至于蜘蛛是否爬行过你的页面、什么时间对你的网站进行抓取等,请看相关文章:查看服务器日志。
对网站确定关键词、分类、及排名等全都是由程序自动完成的,不加任何人工干预,这也就是体现Google的公 平、公正,展现给用户的是最真实、最好的内容。
搜索引擎最主要的由三部分组成:蜘蛛程序、索引和软件。下面我们拿Google举例。
蜘蛛程序
Google的蜘蛛程序分为主蜘蛛和从蜘蛛,当Google全面更新数据库或收录新网站时,派出主蜘蛛,对网站进行 全面的索引(如收录新页、重新确定网页级别等);当Google对网站日常更新时,派出从蜘蛛,对网站内容进行维 护。当发现页面有变化时,其从蜘蛛对此页面进行更新,重新抓取内容。蜘蛛程序会根据一个固定的周期回访其目 录中的站点,寻找更新。至于爬行程序回访的频率,这要由搜索引擎确定。网站拥有者通过采用一个名为robot.txt的 文件确实能控制爬行程序访问这个站点的页面。搜索引擎在进一步爬行一个网站之前首先查看这个文件。目录索引
目录索引就像一个巨大的网站目录,这个目录中全是其蜘蛛程序抓取的网站的列表。据Google公布的数据,目 前,Google已经收录了80亿个网站,而更新这些索引也是相当费时间的,一般更新的周期大约一个月左右,所以, 对于一个新网站来说,蜘蛛程序可能已经爬行了你的网站,但没有列如索引中,而第一次被列入的也是基本索引, 还未别列入其主索引中,只有当Google下次更新索引时才会被列入主索引,在这期间,Google会对网站有一个相应 的评估,会临时出现一个较好的排名,但此时的排名不是真正的排名,只有等到Google下次更新时,才会转化为真 正的排名。这也就是说为什么一个新的网站被索引了而却找不到排名,或者说一个新网站刚开始排名很好,而过段 时间排名就下降或是找不到的原因。至于蜘蛛是否爬行过你的页面、什么时间对你的网站进行抓取等,请看相关文章:查看服务器日志。
程序
Google会对其索引中的网站按照自己独有的程序进行判断,为每个网站进行分类、评分并对网页中的内容进行 分析,找出关键词,当用户输入一个关键词搜索时,就会按照分析好的索引进行排列并加以显示。对网站确定关键词、分类、及排名等全都是由程序自动完成的,不加任何人工干预,这也就是体现Google的公 平、公正,展现给用户的是最真实、最好的内容。
相关文章推荐
- 搜索引擎研究---网络蜘蛛程序算法相关资料 Part II (共5部分)
- 搜索引擎研究---网络蜘蛛程序算法相关资料 Part III (共5部分)
- 北大天网搜索引擎TSE分析及完全注释[6]倒排索引的建立的程序分析(1)
- 搜索引擎研究---网络蜘蛛程序算法相关资料
- 搜索引擎研究---网络蜘蛛程序算法相关资料 Part VI (共5部分)
- 【转】搜索引擎/网络蜘蛛程序源代码
- 北大天网搜索引擎TSE分析及完全注释[6]倒排索引的建立的程序分析(2)
- 搜索引擎研究---网络蜘蛛程序算法相关资料 Part V (共5部分)
- sphider 丁廷臣简体中文完美汉化版带蜘蛛搜索引擎程序 v1.3.4
- 北大天网搜索引擎TSE分析及完全注释[6]倒排索引的建立的程序分析(3)
- 使用Lucene开发自己的搜索引擎–(3)indexer索引程序中基本类介绍
- 搜索引擎/网络蜘蛛程序源代码
- c#Winform程序调用app.config文件配置数据库连接字符串 SQL Server文章目录 浅谈SQL Server中统计对于查询的影响 有关索引的DMV SQL Server中的执行引擎入门 【译】表变量和临时表的比较 对于表列数据类型选择的一点思考 SQL Server复制入门(一)----复制简介 操作系统中的进程与线程
- 浅谈屏蔽搜索引擎爬虫(蜘蛛)抓取/索引/收录网页的几种思路
- 搜索引擎luence之目录索引
- 搜索引擎研究---网络蜘蛛程序算法相关资料
- 搜索引擎/网络蜘蛛程序代码
- 搜索引擎 蜘蛛程序源代码
- 浅谈屏蔽搜索引擎爬虫(蜘蛛)抓取/索引/收录网页的几种思路
- 搜索引擎研究---网络蜘蛛程序算法相关资料 Part I (共5部分)