您的位置:首页 > 其它

搜索引擎(一)体系结构 思维导图

2012-08-04 16:28 218 查看
搜索引擎体系结构概述
思维导图 http://www.xmind.net/share/sndnyangd/search-engine-architecture-1/

看的是清华大学和百度合作的搜索引擎基础课程的教材《搜索引擎技术基础》,这里写的是第四章——搜索体系结构概述,截图在这儿也放不下,千言万语也不如一张图,所以,就用这种方式来写吧。

之前,不知道倒排索引是何物,现在终于知道,合拢索引的索引项是词项,而正排索引的是文档,如此而已。

在CS101写的搜索引擎中,内容索引子系统已经是用词项了,只是不知道这个概念而已。

照书中所说,搜索引擎主要由数据抓取、内容索引、内容检索、链接结构分析四部分组成。回顾在CS101中,写的那个简易的搜索引擎:

其中,爬虫是必须有的,也就是CS101中已经用PYTHON写了基础的数据抓取子系统,不过没有提到涉及的各种网络协议,也没有其它的策略。

内容索引也是包含的,最起码,使用了倒排、建立了索引。只是没有中文的分词或英文的词干抽取,记录的信息也比较少。

链接结构分析部分只是介绍了下RANK算法。

内容检索都是单个词的查找——而且好像也有了一些错误,还待改正。

所以,麻省虽小,五脏俱全,哪怕是个无比简陋、不能使用的搜索引擎,基础的体系结构仍是完整的。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: