用淘宝Fourinone实现Hadoop经典实例wordcount
2011-12-05 15:01
465 查看
很多人是通过wordcount入门分布式并行计算, 该demo演示了Hadoop的经典实例wordcount的实现
输入数据:n个数据文件,每个1g大小,为了方面统计,每个文件的数据由“aaa bbb ... ccc”(由空格分割的1k单词组)不断复制组成。
输出数据:输出这n*1g个数据文件中的每个单词总数
fourinone简单实现思路,假设有n台计算机,将这n个1g数据文件放置在每台计算机上,每台计算机各自统计1g数据,然后合并得到结果
WordcountCT:为一个工头实现,它把需要处理的数据文件名称发给各个工人,然后用一个HashMap<String,Integer> wordcount的map用来装结果
WordcountWK:为一个工人实现,它按照每次读取8m的方式处理文件数据,将文件大小除以8m得到总次数,每次处理过程将字符串进行空格拆分,然后放入本地一个map里,完成后将此map发给工头
ParkServerDemo: 分布式计算过程的协同服务park
运行步骤:
1、启动ParkServerDemo(它的IP端口已经在配置文件的PARK部分的SERVERS指定)
2、运行WordcountWK, 通过传入不同的端口指定多个Worker,这里假设在同机演示,ip设置为localhost
3、运行WordcountCT,传入文件路径(假设多个工人处理相同数据文件)
思维发散:如果将以上实现部署到分布式环境里,它是1*n的并行计算模式,也就是每台机器一个计算实例,fourinone可以支持充分利用一台机器的并行计算能力,可以进行n*n的并行计算模式,比如,每台机器4个实例,每个只需要计算256m,总共1g,这样整体的速度会大幅上升,以下是就wordcount和hadoop的运行对比结果:
![](http://blog.51cto.com/attachment/201210/141241758.jpg)
demo源码和开发包下载:
http://www.skycn.com/soft/68321.html
输入数据:n个数据文件,每个1g大小,为了方面统计,每个文件的数据由“aaa bbb ... ccc”(由空格分割的1k单词组)不断复制组成。
输出数据:输出这n*1g个数据文件中的每个单词总数
fourinone简单实现思路,假设有n台计算机,将这n个1g数据文件放置在每台计算机上,每台计算机各自统计1g数据,然后合并得到结果
WordcountCT:为一个工头实现,它把需要处理的数据文件名称发给各个工人,然后用一个HashMap<String,Integer> wordcount的map用来装结果
WordcountWK:为一个工人实现,它按照每次读取8m的方式处理文件数据,将文件大小除以8m得到总次数,每次处理过程将字符串进行空格拆分,然后放入本地一个map里,完成后将此map发给工头
ParkServerDemo: 分布式计算过程的协同服务park
运行步骤:
1、启动ParkServerDemo(它的IP端口已经在配置文件的PARK部分的SERVERS指定)
2、运行WordcountWK, 通过传入不同的端口指定多个Worker,这里假设在同机演示,ip设置为localhost
3、运行WordcountCT,传入文件路径(假设多个工人处理相同数据文件)
思维发散:如果将以上实现部署到分布式环境里,它是1*n的并行计算模式,也就是每台机器一个计算实例,fourinone可以支持充分利用一台机器的并行计算能力,可以进行n*n的并行计算模式,比如,每台机器4个实例,每个只需要计算256m,总共1g,这样整体的速度会大幅上升,以下是就wordcount和hadoop的运行对比结果:
![](http://blog.51cto.com/attachment/201210/141241758.jpg)
demo源码和开发包下载:
http://www.skycn.com/soft/68321.html
相关文章推荐
- 用淘宝Fourinone实现Hadoop经典实例wordcount
- 淘宝Fourinone介绍及与Hadoop的性能PK
- <四>基于淘宝Fourinone实现集群管理demo
- 淘宝Fourinone和Hadoop的完整对比
- <五>基于淘宝Fourinone实现分布式锁指南和demo
- <六>基于淘宝Fourinone实现分布式缓存指南和demo
- <七>基于淘宝Fourinone实现MQ指南和demo
- 淘宝Fourinone和Hadoop的完整对比
- hadoop 实现简单的wordcount实例
- 淘宝Fourinone和Hadoop的完整对比
- 本地eclipse连接远程hadoop集群运行wordcount实例,实现远程调试
- <三>基于淘宝Fourinone实现统一配置管理指南和demo
- 命令行运行hadoop实例wordcount程序
- linux下jar命令和eclipse两种方式生成wordcount.jar包和hadoop下wordcount实例的运行
- 5行代码怎么实现Hadoop的WordCount?
- Hadoop之道--MapReduce之Hello World实例wordcount
- hadoop入门(六)JavaAPI+Mapreduce实例wordCount单词计数详解
- <四>基于Fourinone实现集群管理demo
- Hadoop之道--MapReduce之Hello World实例wordcount
- Hadoop2.x实战:WordCount、Sort、去重复、average实例MapRedure编写