搜索引擎整体结构图以及描述
2015-08-02 16:40
232 查看
搜索引擎整体结构图:
爬虫从 Internet 中爬取众多的网页作为原始网页库存储于本地,然后网页分析器抽取网页中的主题内容交给分词器进行分词,得到的结果用索引器建立正排和倒排索引,这样就得到了索引数据库,用户查询时,在通过分词器切割输入的查询词组并通过检索器在索引数据库中进行查询,得到的结果返回给用户。
无论搜索引擎的规模大小,其主要结构都是由这几部分构成的,并没有大的差别,搜索引擎的好坏主要是决定于各部分的内部实现。
爬虫从 Internet 中爬取众多的网页作为原始网页库存储于本地,然后网页分析器抽取网页中的主题内容交给分词器进行分词,得到的结果用索引器建立正排和倒排索引,这样就得到了索引数据库,用户查询时,在通过分词器切割输入的查询词组并通过检索器在索引数据库中进行查询,得到的结果返回给用户。
无论搜索引擎的规模大小,其主要结构都是由这几部分构成的,并没有大的差别,搜索引擎的好坏主要是决定于各部分的内部实现。
相关文章推荐
- 华为是怎样研发的(12)——FMEA分析
- LightOJ_1422_HalloweenCostumes
- ArcGIS for Service中JavaScript预览在内网环境无法使用
- 九度OJ 题目1012:畅通工程 (并查集,连通子图)
- 客户管理系统案例总结
- 高清屏的背景图片适配
- C++ 常见面试题目 (二)
- cassandra counter 类型使用注意事项
- HDU 2255 — 奔小康赚大钱 KM入门题
- 服务层的必要性
- TCP建立连接和释放的过程,及TCP状态变迁图
- 第一篇博文:PHP函数原型中的可选参数写法为什么这么写?
- 用python加cPAMIE加pyinstaller为我柱哥点赞
- 【leetcode】Implement Queue using Stacks
- leetcode 抢房子House Robber
- C语言编程入门——指针(上)
- Excel数据导入导出
- 点分治小结
- tomcat发布后,没有class文件,只有项目目录和properties,xml之类的文件解决办法
- NIM 博弈