挑选Hadoop版本
2014-03-11 08:36
162 查看
1. 在Google上搜索hadoop company list
Ø 找到目前拥有Hadoop集群的公司及数量:
http://www.hadoopwizard.com/which-big-data-company-has-the-worlds-biggest-hadoop-cluster/
Appendix: List of Companies with Number of Hadoop Nodes
Ø 从文章http://www.technavio.com/blog/top-14-hadoop-technology-companies可以了解到除了apachehadoop外的其余14家提供Hadoop版本的生产厂商的信息:
1. Amazon Web Services Inc
2. IBM Corp
3. Pivotal Corp
4. Cloudera Inc
5. MapR Technologies Inc
6. Hortonworks Inc
7. Karmasphere Inc
8. Hadapt Inc
9. Super Micro Computer Inc
10. Pentaho Corp
11. Zettaset Inc
12. Datastax Inc
13. Datameer Inc
14. Dell Inc
2. 由于我们的开发要基于开源框架,所以进一步搜索”100% open source hadoop”
目前开源的Hadoop有:
Ø Apache Hadoop
由几个子项目组成:Hadoop Common、Hadoop Distributed File System (HDFS)、Hadoop YARN、HadoopMapReduce
由Yahoo Hadoop团队在过去几年全力构筑,推出了稳定版本。
Ø Cloudera提供了CDH版本的Hadoop
直到2011年夏天,市面上除了ApacheHadoop之外只有CDH 是100%开源的Hadoop框架,并且它与Linux合作得很好。EMC/Greenplum/MapR这个联盟由于不是开源框架,所以不能在我们的考虑范围之内。
Ø Hortonworks
原本团队是存在在Yahoo公司内,于2011年被拆分到与Benchmark Capital共同出资的公司Hortonworks,主打产品是Hortonworks DataPlatform (HDP),100%开源
这篇文章具体分析了Clouder和Hortonworks的前景
http://wikibon.org/wiki/v/The_Hadoop_Wars%3A_Cloudera_and_Hortonworks%E2%80%99_Death_Match_for_Mindshare
3. 综合以上分析,我们肯定要在Apache Hadoop、CDH、HDP中选择一款作为基准来研究,考虑到CDH申明包含了Apache Hadoop,所以Apache Hadoop不在考虑之内。
Ø CDH
优点:支持的厂商较多,对于新需求的反应度也较快。
子项目包括:Hadoop,Flume, HBase, HCatalog, Hive, Hue, Impala, Mahout, Oozie, Pig, Cloudera Search,Sentry, Spark, Sqoop, Whirr, ZooKeeper
详尽的Demo程序。
丰富的文档。
缺点:与用户的交互较少。
管理组件需付费或者加入联盟,不利于中小型客户拓展。
Ø HDP
优点:以用户的使用为出发点,用户体验度较好。
子项目包括:YARN、Stinger、Storm。
缺点:由于起步较晚,较少厂商在使用该版本,目前只有FaceBook和Microsoft两家。
文档较少。
下图为CDH4 VS HDP:
4. 综合以上分析,个人感觉目前还是使用CDH4比较稳妥,当然将继续关注HDP的发展,未来也许是属于HDP的,因为对于用户来说比较重要的两点集群管理工具、对专有代码的依赖都是HDP较有利。
确定了Hadoop架构后我们还需要确定与SQL交互采用什么框架,还有实时情况下采用哪种架构。
下图为Storm VS Spark:
由于选择了CDH4,所以Storm和Spark的选择也就有了结果,目前先用Spark。
下图为Hive VS Impala
目前来看,选择Hive较为合适,当然我们可以两者并行研究,对于不同的用户需求提供不同的解决方案。
Ø 找到目前拥有Hadoop集群的公司及数量:
http://www.hadoopwizard.com/which-big-data-company-has-the-worlds-biggest-hadoop-cluster/
Appendix: List of Companies with Number of Hadoop Nodes
Company | Nodes |
A9.com | 100 |
Accela Communications | 10 |
Adobe | 30 |
adyard | 12 |
Able Grape | 2 |
Adknowledge | 200 |
Aguja | 3 |
Alibaba | 15 |
AOL | 150 |
ARA.COM.TR | 100 |
Archive.is | 3 |
BabaCar | 4 |
Basenfasten | 4 |
Benipal Technologies | 35 |
Beebler | 14 |
Bixo Labs | 20 |
Brilig | 10 |
Brockmann Consult GmbH | 20 |
Caree.rs | 15 |
Charleston | 15 |
Contextweb | 50 |
Cooliris | 15 |
Cornell | 100 |
CRS4 | 400 |
crowdmedia | 5 |
Datagraph | 20 |
Deepdyve | 80 |
Detektei Berlin | 3 |
Detikcom | 9 |
devdaily.com | 3 |
EBay | 532 |
eCircle | 120 |
Enet | 5 |
Enormo | 4 |
ESPOL University | 4 |
ETH Zurich Systems Group | 16 |
Explore.To | 80 |
Facebook | 1400 |
FOX Audience Network | 140 |
Forward3D | 24 |
GBIF | 18 |
GIS.FCU | 3 |
Gruter. Corp. | 30 |
Gewinnspiele | 6 |
GumGum | 9 |
Hadoop Korean User Group | 50 |
Hotels & Accommodation | 3 |
Hulu | 13 |
Hundeshagen | 6 |
Hosting Habitat | 6 |
IIIT | 30 |
IMVU | 4 |
Information Sciences Institute | 18 |
Infochimps | 30 |
Inmobi | 150 |
Iterend | 10 |
Kalooga | 20 |
Clic | 10 |
Last.fm | 100 |
Lineberger Comprehensive Cancer Center | 8 |
LinkedIn | 1900 4100 |
MicroCode | 18 |
Media 6 Degrees | 20 |
Mercadolibre.com | 20 |
MobileAnalytic.TV | 2 |
MyLife | 18 |
Neptune | 200 |
NetSeer | 1050 |
Openstat | 50 |
PCPhase | 4 |
Powerset / Microsoft | 400 |
Pronux | 4 |
PokerTableStats | 2 |
Portabilité | 50 |
PSG Tech | 10 |
Quantcast | 3000 cores (est 750 nodes) |
Rackspace | 30 |
Rakuten | 69 |
Rapleaf | 80 |
Recruit | 50 |
Redpoll | 35 |
Resu.me | 5 |
RightNow Technologies | 16 |
Rovi Corporation | 40 |
Search Wikia | 125 |
SLC Security Services LLC | 18 |
Sling Media | 10 |
Socialmedia.com | 14 |
Specific Media | 138 |
Spotify | 120 |
Taragana | 16 |
The Lydia News Analysis Project | 120 |
Tailsweep | 8 |
Technical analysis and Stock Research | 23 |
Tegatai | 32 |
Telefonica Research | 6 |
Telenav | 60 |
Tepgo | 3 |
Tynt | 94 |
Universidad Distrital Francisco Jose de Caldas | 5 |
University of Freiburg | 10 |
University of Glasgow | 30 |
University of Twente | 16 |
Visible Measures Corporation | 128 cores (est. 32 nodes) |
Webmaster Site | 4 |
WorldLingo | 44 |
Yahoo! | 42,000 |
Zvents | 10 |
1. Amazon Web Services Inc
2. IBM Corp
3. Pivotal Corp
4. Cloudera Inc
5. MapR Technologies Inc
6. Hortonworks Inc
7. Karmasphere Inc
8. Hadapt Inc
9. Super Micro Computer Inc
10. Pentaho Corp
11. Zettaset Inc
12. Datastax Inc
13. Datameer Inc
14. Dell Inc
2. 由于我们的开发要基于开源框架,所以进一步搜索”100% open source hadoop”
目前开源的Hadoop有:
Ø Apache Hadoop
由几个子项目组成:Hadoop Common、Hadoop Distributed File System (HDFS)、Hadoop YARN、HadoopMapReduce
由Yahoo Hadoop团队在过去几年全力构筑,推出了稳定版本。
Ø Cloudera提供了CDH版本的Hadoop
直到2011年夏天,市面上除了ApacheHadoop之外只有CDH 是100%开源的Hadoop框架,并且它与Linux合作得很好。EMC/Greenplum/MapR这个联盟由于不是开源框架,所以不能在我们的考虑范围之内。
Ø Hortonworks
原本团队是存在在Yahoo公司内,于2011年被拆分到与Benchmark Capital共同出资的公司Hortonworks,主打产品是Hortonworks DataPlatform (HDP),100%开源
这篇文章具体分析了Clouder和Hortonworks的前景
http://wikibon.org/wiki/v/The_Hadoop_Wars%3A_Cloudera_and_Hortonworks%E2%80%99_Death_Match_for_Mindshare
3. 综合以上分析,我们肯定要在Apache Hadoop、CDH、HDP中选择一款作为基准来研究,考虑到CDH申明包含了Apache Hadoop,所以Apache Hadoop不在考虑之内。
Ø CDH
优点:支持的厂商较多,对于新需求的反应度也较快。
子项目包括:Hadoop,Flume, HBase, HCatalog, Hive, Hue, Impala, Mahout, Oozie, Pig, Cloudera Search,Sentry, Spark, Sqoop, Whirr, ZooKeeper
详尽的Demo程序。
丰富的文档。
缺点:与用户的交互较少。
管理组件需付费或者加入联盟,不利于中小型客户拓展。
Ø HDP
优点:以用户的使用为出发点,用户体验度较好。
子项目包括:YARN、Stinger、Storm。
缺点:由于起步较晚,较少厂商在使用该版本,目前只有FaceBook和Microsoft两家。
文档较少。
下图为CDH4 VS HDP:
| Cloudera | Hortonworks |
开源程度 | 标准版100%开源 | 标准版100%开源 |
成立时间 | 2009年3月 | 2011年6月 |
天使投资 | 3千6百万美元 | 2千万美元 |
基于Hadoop平台 | Apache Hadoop | Yahoo Hadoop平台 |
客户群 | 超过400家企业 | 2家企业(Yahoo 和 Microsoft) |
主要管理层 | CEO Mike Olson CTO Dr.Amr Awadallah Chief Scientist Jeff Hammerbacher Architect Doug Cutting | CEO Eric Baldeschwieler President and COO Rob Bearden VP of engineering Mark Himelstein |
最新稳定版本 | CDH4.6 | HDP2.0 |
文档 | 很多,容易理解 | 较少 |
Demo | 很多,容易理解 | 较少 |
集群管理工具 | 需付费,免费功能较少 | 免费 |
支持的Apache Hadoop相关开源框架 | 支持Flume, HBase, HCatalog, Hive, Hue, Impala, Mahout, Oozie, Pig, Cloudera Search, Sentry, Spark, Sqoop, Whirr, ZooKeeper | 支持YARN、Stinger、Storm |
实时处理架构支持 | 主推Apache Spark | 主推Apache Storm |
对专有代码的依赖 | 较高 | 较低 |
4. 综合以上分析,个人感觉目前还是使用CDH4比较稳妥,当然将继续关注HDP的发展,未来也许是属于HDP的,因为对于用户来说比较重要的两点集群管理工具、对专有代码的依赖都是HDP较有利。
确定了Hadoop架构后我们还需要确定与SQL交互采用什么框架,还有实时情况下采用哪种架构。
下图为Storm VS Spark:
| Strom | Spark |
开源 | 100% | 100% |
版本 | 0.9.1 | 0.8.0 |
Hadoop架构联盟 | HDP | CDH4 |
运行方式 | 数据以流的方式流入到指定的机器节点上,在这些节点上执行计算步骤 | 将大量数据存储在内存中,数据和计算的关系类似于Hadoop,在数据量到位后计算随即在该节点上展开 |
是否支持并行计算 | 支持 | 支持 |
善长点 | 被适合于计算数据较小的情况 | 适合于被计算数据较大的情况 |
文档 | 项目创建不久,不是很多 | 项目创建不久,不是很多 |
下图为Hive VS Impala
| Hive | Impala |
是否开源 | 100% | 100% |
创始组织 | Apache | Apache |
Hadoop架构联盟 | CDH4 | CDH4 |
工作原理 | 运用MapReduce操作数据,所以它是基于Hadoop架构的 | 运用缓存机制来缓存存在于HDFS中的数据,所以它与Hadoop架构是分离的 |
适用场景 | 数据量较大时 | 数据量较小时 |
相关文章推荐
- Linux版本之挑选适合服务器的OS发行版
- 解决hbase和hdfs的hadoop版本不兼容问题
- Hadoop 子项目HIVE安装版本选择
- hadoop-0.20.2-cdh3u5版本从集群中移除一个节点
- 大数据1-HADOOP版本选择
- Hadoop概念学习系列之如何去找到历史版本的Hadoop发行包(三十四)
- 很好的hadoop学习博客实际操作训练(旧版本)
- hadoop2.2.0 版本编译64位native库的问题
- 集群hadoop版本升级(2.6.4--2.7.2)
- [Hadoop] 如何为你的企业选择正确的Hadoop版本
- 传智播客hadoop7天视频教程(非吴超版本)
- Centos 6.5版本的Linux系统下关于hadoop2.4.1伪分布式的搭建
- Pig安装及简单使用(pig版本0.13.0,Hadoop版本2.5.0)
- 源码编译Spark,Hadoop 2.6.0-cdh5.7.0 版本
- hadoop不同版本有哪些
- hadoop的伪分布安装(低版本)
- hadoop不同版本有哪些
- 太多选择——如何挑选合适的大数据或Hadoop平台?
- Hadoop集群系统版本安装和启动配置
- HDFS-HA:Hadoop-Cloudera-cdh4版本的HDFS自动Failover(zk-based-failover)分析