搜索引擎(一)体系结构 思维导图
2012-08-04 16:28
218 查看
搜索引擎体系结构概述
思维导图 http://www.xmind.net/share/sndnyangd/search-engine-architecture-1/
看的是清华大学和百度合作的搜索引擎基础课程的教材《搜索引擎技术基础》,这里写的是第四章——搜索体系结构概述,截图在这儿也放不下,千言万语也不如一张图,所以,就用这种方式来写吧。
之前,不知道倒排索引是何物,现在终于知道,合拢索引的索引项是词项,而正排索引的是文档,如此而已。
在CS101写的搜索引擎中,内容索引子系统已经是用词项了,只是不知道这个概念而已。
照书中所说,搜索引擎主要由数据抓取、内容索引、内容检索、链接结构分析四部分组成。回顾在CS101中,写的那个简易的搜索引擎:
其中,爬虫是必须有的,也就是CS101中已经用PYTHON写了基础的数据抓取子系统,不过没有提到涉及的各种网络协议,也没有其它的策略。
内容索引也是包含的,最起码,使用了倒排、建立了索引。只是没有中文的分词或英文的词干抽取,记录的信息也比较少。
链接结构分析部分只是介绍了下RANK算法。
内容检索都是单个词的查找——而且好像也有了一些错误,还待改正。
所以,麻省虽小,五脏俱全,哪怕是个无比简陋、不能使用的搜索引擎,基础的体系结构仍是完整的。
思维导图 http://www.xmind.net/share/sndnyangd/search-engine-architecture-1/
看的是清华大学和百度合作的搜索引擎基础课程的教材《搜索引擎技术基础》,这里写的是第四章——搜索体系结构概述,截图在这儿也放不下,千言万语也不如一张图,所以,就用这种方式来写吧。
之前,不知道倒排索引是何物,现在终于知道,合拢索引的索引项是词项,而正排索引的是文档,如此而已。
在CS101写的搜索引擎中,内容索引子系统已经是用词项了,只是不知道这个概念而已。
照书中所说,搜索引擎主要由数据抓取、内容索引、内容检索、链接结构分析四部分组成。回顾在CS101中,写的那个简易的搜索引擎:
其中,爬虫是必须有的,也就是CS101中已经用PYTHON写了基础的数据抓取子系统,不过没有提到涉及的各种网络协议,也没有其它的策略。
内容索引也是包含的,最起码,使用了倒排、建立了索引。只是没有中文的分词或英文的词干抽取,记录的信息也比较少。
链接结构分析部分只是介绍了下RANK算法。
内容检索都是单个词的查找——而且好像也有了一些错误,还待改正。
所以,麻省虽小,五脏俱全,哪怕是个无比简陋、不能使用的搜索引擎,基础的体系结构仍是完整的。
相关文章推荐
- java体系结构--思维导图
- 搜索引擎的体系结构
- 搜索引擎的体系结构
- 搜索引擎学习笔记-第二章 Web搜索引擎工作原理和体系结构
- vi 思维导图
- 数据结构思维导图
- 《智能时代》内容思维导图与读后感
- 搜索引擎入门 -- 心脏
- 搜索引擎:solr--搭建和分析中文分词器。下(jcseg和ICTCLAS)
- 第三百六十八节,Python分布式爬虫打造搜索引擎Scrapy精讲—elasticsearch(搜索引擎)用Django实现搜索的自动补全功能
- 搜索引擎的工作原理
- 从搜索引擎角度看SEO
- 电脑变外网服务器,所有文件,百度等搜索引擎都可以检索。
- 网上收集:跟着 8 张思维导图学习 Javascript【转】
- 第三百七十节,Python分布式爬虫打造搜索引擎Scrapy精讲—elasticsearch(搜索引擎)用Django实现搜索结果分页
- Silverlight搜索引擎优化 做最好的SE0
- 有效引导搜索引擎 抓取优化网站内部链接
- SEC推广搜索引擎欺骗目前网易博客已经禁止该行为。
- 【体系结构】sga