Nutch1.3集成Solr3.4网页快照功能实现(二)
2011-11-23 13:44
381 查看
FileInputFormat.addInputPath(job, new Path(segment, ParseText.DIR_NAME));中仅处理了Segment文件夹下“parse_data”与“parse_text”中的内容,对于原始的网页快照文件夹(“content”)并没有进行处理,Segment文件夹结构如下所示:
![](http://blog.51cto.com/attachment/201111/134328693.png)
我们在这里要做的就是将“content”文件夹加入处理方法中,修改后的方法如下:
![](http://blog.51cto.com/attachment/201111/134328693.png)
我们在这里要做的就是将“content”文件夹加入处理方法中,修改后的方法如下:
public static void initMRJob(Path crawlDb, Path linkDb, Collection<Path> segments, JobConf job) { final String DIR_CACHE = "content";[/b] LOG.info("IndexerMapReduce: crawldb: " + crawlDb); LOG.info("IndexerMapReduce: linkdb: " + linkDb); for (final Path segment : segments) { LOG.info("IndexerMapReduces: adding segment: " + segment); FileInputFormat.addInputPath(job, new Path(segment, CrawlDatum.FETCH_DIR_NAME)); FileInputFormat.addInputPath(job, new Path(segment, CrawlDatum.PARSE_DIR_NAME)); FileInputFormat.addInputPath(job, new Path(segment, ParseData.DIR_NAME)); FileInputFormat.addInputPath(job, new Path(segment, ParseText.DIR_NAME)); FileInputFormat[/b].addInputPath(job, new Path(segment, DIR_CACHE));[/b] } FileInputFormat.addInputPath(job, new Path(crawlDb, CrawlDb.CURRENT_NAME)); FileInputFormat.addInputPath(job, new Path(linkDb, LinkDb.CURRENT_NAME)); job.setInputFormat(SequenceFileInputFormat.class); job.setMapperClass(IndexerMapReduce.class); job.setReducerClass(IndexerMapReduce.class); job.setOutputFormat(IndexerOutputFormat.class); job.setOutputKeyClass(Text.class); job.setMapOutputValueClass(NutchWritable.class); job.setOutputValueClass(NutchWritable.class); } |
相关文章推荐
- Nutch1.3集成Solr3.4网页快照功能实现(三)
- Nutch1.3集成Solr3.4网页快照功能实现(四)
- Nutch1.3集成Solr网页快照功能实现(一)
- IOS项目集成ShareSDK实现第三方登录、分享、关注等功能
- AngularJS进阶(十九)在AngularJS应用中集成百度地图实现定位功能
- [置顶] android开发之集成zxing,二维码,以及扫描二维码的功能实现。带源代码下载
- Eclipse集成Zxing实现扫一扫功能
- 实现Django的全文检索功能(二):集成haytack
- iOS:IOS项目集成ShareSDK实现第三方登录、分享、关注等功能。
- 以向VS 程序打包集成自动写入注册表功能为例,介绍如何实现自由控制安装过程
- IOS项目集成ShareSDK实现第三方登录、分享、关注等功能。
- CentOS 5下freeswitch中集成使用ekho实现TTS功能二
- IOS项目集成ShareSDK实现第三方登录、分享、关注等功能。
- 简单的spring-data集成mongoDB项目,实现crud的功能
- 安卓手把手教你实现集成支付宝支付功能
- Android 扫一扫功能实现 (集成ZXing)
- jquery + json + springMVC集成在controller中实现Ajax功能
- android 手把手教你实现集成支付宝支付功能
- IOS项目集成ShareSDK实现第三方登录、分享、关注等功能。
- 简单的spring-data集成mongoDB项目,实现crud的功能