Nutch第一课之搜索引擎基本子系统
2013-10-04 16:42
190 查看
最近在学习Nutch搜索引擎框架,因为比较菜,所以我会将学习的内容慢慢记录下来,帮助自己记忆,也方便别人学习,希望能够与别人碰撞出思想的火花
Nutch是Apache开源社区下的一个顶级项目,是利用Java编写的一个搜索引擎框架,可以方便企业以及个人搭建自己的搜索引擎(http://lucene.apache.org/nutch)。
要写学习应用这个框架:我们需要了解构成搜索引擎所必须的几个子系统:
网页数据库
数据库跟踪网络爬虫要抓取的所有网页和它们的状态,如上一次访问的时间,它的抓取状态信息,刷新间隔,内容校验和,等等。对应于Nutch中的CrawlDB。
爬取网页清单
网络爬虫定期刷新其Web视图信息,然后下载新的网页(以前没有抓取的)或刷新它们认为已经过期的网页。这些准备爬取的候选网页清单。对应于Nutch中的fetchlist。
原始网页数据
网页内容从远程网站下载,以原始的未解释的格式在本地存储成字节数组。对应于Nutch中的page content。
解析的网页数据
网页内容用适合的解析器进行解析――Nutch为各种流行格式的文档提供了解析器,如HTML,PDF,Open Office和Microsoft Office,RSS等
连接图数据库
对于计算基于链接(link)的网页排序(page rank)值来说,如PageRank,这个数据库是必须的。对于Nutch记录的每一个URL,它会包含一串指向它的其他的URL值以及这些URL关联的锚文本(在HTML文件的锚文本元素中得到)。这个数据库称为LinkDb。
全文检索索引
这是一个传统的倒排索引,基于搜集到的所有网页元数据与抽取到的纯文本内容而建立。它是使用卓越的Lucene库(http://lucene.apache.org/java)来实现的。
附两张nutch工作流程图,参考自:http://blog.sina.com.cn/s/blog_6d0b92d90100w6p7.html
Nutch是Apache开源社区下的一个顶级项目,是利用Java编写的一个搜索引擎框架,可以方便企业以及个人搭建自己的搜索引擎(http://lucene.apache.org/nutch)。
要写学习应用这个框架:我们需要了解构成搜索引擎所必须的几个子系统:
网页数据库
数据库跟踪网络爬虫要抓取的所有网页和它们的状态,如上一次访问的时间,它的抓取状态信息,刷新间隔,内容校验和,等等。对应于Nutch中的CrawlDB。
爬取网页清单
网络爬虫定期刷新其Web视图信息,然后下载新的网页(以前没有抓取的)或刷新它们认为已经过期的网页。这些准备爬取的候选网页清单。对应于Nutch中的fetchlist。
原始网页数据
网页内容从远程网站下载,以原始的未解释的格式在本地存储成字节数组。对应于Nutch中的page content。
解析的网页数据
网页内容用适合的解析器进行解析――Nutch为各种流行格式的文档提供了解析器,如HTML,PDF,Open Office和Microsoft Office,RSS等
连接图数据库
对于计算基于链接(link)的网页排序(page rank)值来说,如PageRank,这个数据库是必须的。对于Nutch记录的每一个URL,它会包含一串指向它的其他的URL值以及这些URL关联的锚文本(在HTML文件的锚文本元素中得到)。这个数据库称为LinkDb。
全文检索索引
这是一个传统的倒排索引,基于搜集到的所有网页元数据与抽取到的纯文本内容而建立。它是使用卓越的Lucene库(http://lucene.apache.org/java)来实现的。
附两张nutch工作流程图,参考自:http://blog.sina.com.cn/s/blog_6d0b92d90100w6p7.html
相关文章推荐
- linux 基本命令第一课 用户管理
- 【Nutch2.2.1源代码分析之5】索引的基本流程
- 【Nutch2.2.1基础教程之2.1】集成Nutch/Hbase/Solr构建搜索引擎之一:安装及运行【单机环境】
- 搜索引擎 - 查询子系统
- 【Nutch2.2.1源代码分析之5】索引的基本流程
- Nutch距离一个商业应用的搜索引擎还有多远收藏
- ES搜索引擎Java客户端API-QueryBuilder基本查询
- Nutch搜索引擎之分布式文件系统(作者:CSharpProgrammer)
- Lucene(Nutch)距离商业文本搜索引擎还有多远?
- 搜索引擎分词:Nutch整合Paoding中文分词步骤详解
- Nutch开源搜索引擎的crawl日志分析及工作目录说明
- 【Nutch2.2.1基础教程之2.2】集成Nutch/Hbase/Solr构建搜索引擎之二:内容分析
- Linux时间子系统(一) 基本概念
- 搜索引擎Nutch 0.7.2 试用笔记
- 使用 Hadoop,Nutch ,Hbase,Solr 搭建搜索引擎之Nutch2.2.1
- 搜索引擎的基本工作原理
- 第一课、基本数据类型-----------------------狄泰软件学院
- 新版中日交流标准日本语初级第一课之基本课文I
- 基于hadoop+nutch+solr的搜索引擎环境搭载<一>hadoop完全分布式环境搭建
- 搜索引擎Nutch 0.7.2 试用笔记