nutch相关目录说明
2014-09-19 19:26
148 查看
Nutch数据包含3个目录结构,分别是:
1、Crawldb:用于存储Nutch将要检索的url信息,以及检索状态(是否检索、何时检索)
2、Linkdb:用于存储每一个url所包含的超链接信息(包括锚点)
3、Segments:一组url的集合,他们作为一个检索单元,可用于分布式检索
Segment目录包含以下子目录信息:
(1) crawl_generate:定义将要检索的url集合(文件类型为SequenceFile)
(2) crawl_fetch:存储每一个url的检索状态(文件类型为MapFile)
(3) content:存储每一个url所对应的二进制字节流(文件类型为MapFile)
(4) parse_text:存储每一个url所解析出的文本内容(文件类型为MapFile)
(5) parse_data:存储每一个url所解析出的元数据(文件类型为MapFile)
(6) crawl_parse:用于及时更新crawldb中的内容(如要检索的url已不存在等情况)--文件类型为SequenceFile
注:结合Nutch的数据结构和组件结构来看,crawldb相当于WebDB,而segment相当于是fetchlists.
分布式crawl过程中,每个MapReduce Job都会生成一个segment,名称以时间来命名
1、Crawldb:用于存储Nutch将要检索的url信息,以及检索状态(是否检索、何时检索)
2、Linkdb:用于存储每一个url所包含的超链接信息(包括锚点)
3、Segments:一组url的集合,他们作为一个检索单元,可用于分布式检索
Segment目录包含以下子目录信息:
(1) crawl_generate:定义将要检索的url集合(文件类型为SequenceFile)
(2) crawl_fetch:存储每一个url的检索状态(文件类型为MapFile)
(3) content:存储每一个url所对应的二进制字节流(文件类型为MapFile)
(4) parse_text:存储每一个url所解析出的文本内容(文件类型为MapFile)
(5) parse_data:存储每一个url所解析出的元数据(文件类型为MapFile)
(6) crawl_parse:用于及时更新crawldb中的内容(如要检索的url已不存在等情况)--文件类型为SequenceFile
注:结合Nutch的数据结构和组件结构来看,crawldb相当于WebDB,而segment相当于是fetchlists.
分布式crawl过程中,每个MapReduce Job都会生成一个segment,名称以时间来命名
相关文章推荐
- nutch相关目录说明
- nutch相关目录说明
- Nutch下载后的文件目录说明
- Apache下的子目录以及相关指令的说明
- Nutch开源搜索引擎的crawl日志分析及工作目录说明
- Android SDK目录下相关文件说明
- 2:文档编辑生成目录相关方法说明
- JBoss 下的目录结构说明和端口修改相关
- VS2008项目中相关目录的说明
- nutch 产生的目录说明
- Android源码目录结构下相关说明
- linux相关命令及根目录相关文件说明(二)
- nutch研究—基本使用相关说明
- Nutch相关框架视频教程--说明
- linux笔记三-------根目录相关说明
- Tomcat 目录下相关文件说明
- Android SDK目录下相关文件说明
- Nutch开源搜索引擎的crawl日志分析及工作目录说明
- 关于android 4.1源码调整asset相关目录的说明
- linux相关命令及根目录相关文件说明(一)