Nutch 命令介绍
2012-11-05 17:08
155 查看
2. 单个命令的说明
2.1 bin/nutch crawl
Usage: Crawl <urlDir> -solr <solrURL> [-dir d] [-threads n] [-depth i] [-topN N]
这是用于对urls进行一键式抓取的命令
2.2 bin/nutch readdb
Usage: CrawlDbReader <crawldb> (-stats | -dump <out_dir> | -topN <nnnn> <out_dir> [<min>] | -url <url>)
这是用于对crawldb数据库进行读取的命令,主要是用于dump相应的url文件
查看crawldb数据库:bin/nutch readdb 20090519/crawldb/ -stats 这个命令可以查看url地址总数和它的状态及评分。
导出权重和相关的url信息:bin/nutch readdb 20090519/crawldb/ -topN 20 urldb(out_dir)
查看每个url地址的详细内容,导出数据:bin/nutch readdb 20090519/crawldb/ -dump crawldb(out_dir)
查看具体的url,以163为例:bin/nutch readdb 20090519/crawldb/ -url http://www.163.com/
2.3 bin/nutch convdb
这个命令主要用于把nutch 0.9的crawldb数据转换成1.3的格式
2.4 bin/nutch mergedb
Usage: CrawlDbMerger <output_crawldb> <crawldb1> [<crawldb2> <crawldb3> ...] [-normalize] [-filter]
这个命令主要用于合并多个crawldb数据库
2.5 bin/nutch readlinkdb
Usage: LinkDbReader <linkdb> {-dump <out_dir> | -url <url>)
主要用于读取invertlinks产生的链接数据
查看linkdb数据库的链接情况:bin/nutch readlinkdb 20090519/linkdb/ -url http://www.163.com/
导出linkdb数据库文件:bin/nutch readlinkdb 20090519/linkdb/ -dump linkdb(out_dir)
2.6 bin/nutch inject
Usage: Injector <crawldb> <url_dir>
主要用于把url_dir中的url注入到crawldb数据库中去
2.7 bin/nutch generate
Usage: Generator <crawldb> <segments_dir> [-force] [-topN N] [-numFetchers numFetchers] [-adddays numDays] [-noFilter] [-noNorm][-maxNumSegments num]
用于产生准备抓取的url列表
2.8 bin/nutch freegen
Usage: FreeGenerator <inputDir> <segmentsDir> [-filter] [-normalize]
从文本文件中提取urls来产生新的抓取segment
2.9 bin/nutch fetch
Usage: Fetcher <segment> [-threads n] [-noParsing]
主要用来对generate产生的urls进行抓取,这里用到了Hadoop架构,使用了一个FetcherOutputFormat来对其结果进行多目录输出
2.10 bin/nutch parse
Usage: ParseSegment segment
主要是对抓取的内容进行分析
2.11 bin/nutch readseg
Usage: SegmentReader (-dump ... | -list ... | -get ...) [general options]
这个命令主要是输出segment的内容
查看segments:bin/nutch readseg -list -dir 20090519/segments/ 可以看到每一个segments的名称,产生的页面数,抓取的开始时间和结束时间,抓取数和解析数。
导出segments:bin/nutch readseg -dump 20090519/segments/20090309103156 segdb(out_dir)
2.12 bin/nutch invertlinks
Usage: LinkDb <linkdb> (-dir <segmentsDir> | <seg1> <seg2> ...) [-force] [-noNormalize] [-noFilter]
这个命令主要是得到抓取内容的外链接数据
2.13 bin/nutch solrindex
Usage: SolrIndexer <solr url> <crawldb> <linkdb> (<segment> ... | -dir <segments>)
对抓取的内容进行索引建立,前提是要有solr环境。
2.14 bin/nutch plugin
Usage: PluginRepository pluginId className [arg1 arg2 ...]
这个命令主要对插件进行测试,运行其main方法
2.1 bin/nutch crawl
Usage: Crawl <urlDir> -solr <solrURL> [-dir d] [-threads n] [-depth i] [-topN N]
这是用于对urls进行一键式抓取的命令
2.2 bin/nutch readdb
Usage: CrawlDbReader <crawldb> (-stats | -dump <out_dir> | -topN <nnnn> <out_dir> [<min>] | -url <url>)
这是用于对crawldb数据库进行读取的命令,主要是用于dump相应的url文件
查看crawldb数据库:bin/nutch readdb 20090519/crawldb/ -stats 这个命令可以查看url地址总数和它的状态及评分。
导出权重和相关的url信息:bin/nutch readdb 20090519/crawldb/ -topN 20 urldb(out_dir)
查看每个url地址的详细内容,导出数据:bin/nutch readdb 20090519/crawldb/ -dump crawldb(out_dir)
查看具体的url,以163为例:bin/nutch readdb 20090519/crawldb/ -url http://www.163.com/
2.3 bin/nutch convdb
这个命令主要用于把nutch 0.9的crawldb数据转换成1.3的格式
2.4 bin/nutch mergedb
Usage: CrawlDbMerger <output_crawldb> <crawldb1> [<crawldb2> <crawldb3> ...] [-normalize] [-filter]
这个命令主要用于合并多个crawldb数据库
2.5 bin/nutch readlinkdb
Usage: LinkDbReader <linkdb> {-dump <out_dir> | -url <url>)
主要用于读取invertlinks产生的链接数据
查看linkdb数据库的链接情况:bin/nutch readlinkdb 20090519/linkdb/ -url http://www.163.com/
导出linkdb数据库文件:bin/nutch readlinkdb 20090519/linkdb/ -dump linkdb(out_dir)
2.6 bin/nutch inject
Usage: Injector <crawldb> <url_dir>
主要用于把url_dir中的url注入到crawldb数据库中去
2.7 bin/nutch generate
Usage: Generator <crawldb> <segments_dir> [-force] [-topN N] [-numFetchers numFetchers] [-adddays numDays] [-noFilter] [-noNorm][-maxNumSegments num]
用于产生准备抓取的url列表
2.8 bin/nutch freegen
Usage: FreeGenerator <inputDir> <segmentsDir> [-filter] [-normalize]
从文本文件中提取urls来产生新的抓取segment
2.9 bin/nutch fetch
Usage: Fetcher <segment> [-threads n] [-noParsing]
主要用来对generate产生的urls进行抓取,这里用到了Hadoop架构,使用了一个FetcherOutputFormat来对其结果进行多目录输出
2.10 bin/nutch parse
Usage: ParseSegment segment
主要是对抓取的内容进行分析
2.11 bin/nutch readseg
Usage: SegmentReader (-dump ... | -list ... | -get ...) [general options]
这个命令主要是输出segment的内容
查看segments:bin/nutch readseg -list -dir 20090519/segments/ 可以看到每一个segments的名称,产生的页面数,抓取的开始时间和结束时间,抓取数和解析数。
导出segments:bin/nutch readseg -dump 20090519/segments/20090309103156 segdb(out_dir)
2.12 bin/nutch invertlinks
Usage: LinkDb <linkdb> (-dir <segmentsDir> | <seg1> <seg2> ...) [-force] [-noNormalize] [-noFilter]
这个命令主要是得到抓取内容的外链接数据
2.13 bin/nutch solrindex
Usage: SolrIndexer <solr url> <crawldb> <linkdb> (<segment> ... | -dir <segments>)
对抓取的内容进行索引建立,前提是要有solr环境。
2.14 bin/nutch plugin
Usage: PluginRepository pluginId className [arg1 arg2 ...]
这个命令主要对插件进行测试,运行其main方法
相关文章推荐
- 8.1 shell介绍 8.2 命令历史 8.3 命令补全和别名 8.4 通配符 8.5 输入输出重
- shell脚本介绍,shell脚本结构和执行,date命令用法,shell脚本中的变量
- db2命令介绍
- ADB命令介绍
- attrib命令介绍
- hadoop中一些常用的命令介绍
- Linux od命令详细介绍及用法实例
- telnet的命令使用介绍
- objcopy命令介绍 .
- 【Linux】rpm常用命令及rpm参数介绍
- shell脚本介绍 Shell脚本结构和执行 date命令用法 Shell脚本中的变量
- Xcopy命令参数使用介绍
- Linux chmod 命令详细介绍
- telnet命令使用介绍
- linux cp (复制)命令介绍
- Linux常用命令大全,非常全面系统的介绍各个命令的用法
- git命令的图形化介绍
- Unix awk命令(1) -- awk命令介绍
- Linux中set命令介绍
- 优秀的源代码管理工具---CVS基本命令介绍