您的位置:首页 > 运维架构

挑选Hadoop版本

2014-03-11 08:36 162 查看
1.      在Google上搜索hadoop company list

Ø  找到目前拥有Hadoop集群的公司及数量:
http://www.hadoopwizard.com/which-big-data-company-has-the-worlds-biggest-hadoop-cluster/
Appendix: List of Companies with Number of Hadoop Nodes
Company
Nodes
A9.com
100
Accela Communications
10
Adobe
30
adyard
12
Able Grape
2
Adknowledge
200
Aguja
3
Alibaba
15
AOL
150
ARA.COM.TR
100
Archive.is
3
BabaCar
4
Basenfasten
4
Benipal Technologies
35
Beebler
14
Bixo Labs
20
Brilig
10
Brockmann Consult GmbH
20
Caree.rs
15
Charleston
15
Contextweb
50
Cooliris
15
Cornell
100
CRS4
400
crowdmedia
5
Datagraph
20
Deepdyve
80
Detektei Berlin
3
Detikcom
9
devdaily.com
3
EBay
532
eCircle
120
Enet
5
Enormo
4
ESPOL University
4
ETH Zurich Systems Group
16
Explore.To
80
Facebook
1400
FOX Audience Network
140
Forward3D
24
GBIF
18
GIS.FCU
3
Gruter. Corp.
30
Gewinnspiele
6
GumGum
9
Hadoop Korean User Group
50
Hotels & Accommodation
3
Hulu
13
Hundeshagen
6
Hosting Habitat
6
IIIT
30
IMVU
4
Information Sciences Institute
18
Infochimps
30
Inmobi
150
Iterend
10
Kalooga
20
Clic
10
Last.fm
100
Lineberger Comprehensive Cancer Center
8
LinkedIn
1900 4100
MicroCode
18
Media 6 Degrees
20
Mercadolibre.com
20
MobileAnalytic.TV
2
MyLife
18
Neptune
200
NetSeer
1050
Openstat
50
PCPhase
4
Powerset / Microsoft
400
Pronux
4
PokerTableStats
2
Portabilité
50
PSG Tech
10
Quantcast
3000 cores (est 750 nodes)
Rackspace
30
Rakuten
69
Rapleaf
80
Recruit
50
Redpoll
35
Resu.me
5
RightNow Technologies
16
Rovi Corporation
40
Search Wikia
125
SLC Security Services LLC
18
Sling Media
10
Socialmedia.com
14
Specific Media
138
Spotify
120
Taragana
16
The Lydia News Analysis Project
120
Tailsweep
8
Technical analysis and Stock Research
23
Tegatai
32
Telefonica Research
6
Telenav
60
Tepgo
3
Tynt
94
Universidad Distrital Francisco Jose de Caldas
5
University of Freiburg
10
University of Glasgow
30
University of Twente
16
Visible Measures Corporation
128 cores (est. 32 nodes)
Webmaster Site
4
WorldLingo
44
Yahoo!
42,000
Zvents
10
Ø  从文章http://www.technavio.com/blog/top-14-hadoop-technology-companies可以了解到除了apachehadoop外的其余14家提供Hadoop版本的生产厂商的信息:

1.        Amazon Web Services Inc

2.        IBM Corp

3.        Pivotal Corp

4.        Cloudera Inc

5.        MapR Technologies Inc

6.        Hortonworks Inc

7.        Karmasphere Inc

8.        Hadapt Inc

9.        Super Micro Computer Inc

10.    Pentaho Corp

11.    Zettaset Inc

12.    Datastax Inc

13.    Datameer Inc

14.    Dell Inc

2.      由于我们的开发要基于开源框架,所以进一步搜索”100% open source hadoop”

目前开源的Hadoop有:

Ø  Apache Hadoop

由几个子项目组成:Hadoop Common、Hadoop Distributed File System (HDFS)、Hadoop YARN、HadoopMapReduce

由Yahoo Hadoop团队在过去几年全力构筑,推出了稳定版本。

Ø  Cloudera提供了CDH版本的Hadoop

直到2011年夏天,市面上除了ApacheHadoop之外只有CDH 是100%开源的Hadoop框架,并且它与Linux合作得很好。EMC/Greenplum/MapR这个联盟由于不是开源框架,所以不能在我们的考虑范围之内。

Ø  Hortonworks

原本团队是存在在Yahoo公司内,于2011年被拆分到与Benchmark Capital共同出资的公司Hortonworks,主打产品是Hortonworks DataPlatform (HDP),100%开源

这篇文章具体分析了Clouder和Hortonworks的前景

http://wikibon.org/wiki/v/The_Hadoop_Wars%3A_Cloudera_and_Hortonworks%E2%80%99_Death_Match_for_Mindshare

3.      综合以上分析,我们肯定要在Apache Hadoop、CDH、HDP中选择一款作为基准来研究,考虑到CDH申明包含了Apache Hadoop,所以Apache Hadoop不在考虑之内。

Ø  CDH

优点:支持的厂商较多,对于新需求的反应度也较快。

      子项目包括:Hadoop,Flume, HBase, HCatalog, Hive, Hue, Impala, Mahout, Oozie, Pig, Cloudera Search,Sentry, Spark, Sqoop, Whirr, ZooKeeper

      详尽的Demo程序。

      丰富的文档。

缺点:与用户的交互较少。

      管理组件需付费或者加入联盟,不利于中小型客户拓展。

Ø  HDP

优点:以用户的使用为出发点,用户体验度较好。

      子项目包括:YARN、Stinger、Storm。

缺点:由于起步较晚,较少厂商在使用该版本,目前只有FaceBook和Microsoft两家。

      文档较少。

 

下图为CDH4 VS HDP:

 

Cloudera

Hortonworks

开源程度

标准版100%开源

标准版100%开源

成立时间

2009年3月

2011年6月

天使投资

3千6百万美元

2千万美元

基于Hadoop平台

Apache Hadoop

Yahoo Hadoop平台

客户群

超过400家企业

2家企业(Yahoo 和 Microsoft)

主要管理层

CEO Mike Olson

CTO Dr.Amr Awadallah

Chief Scientist Jeff Hammerbacher

Architect Doug Cutting

CEO  Eric Baldeschwieler

President and COO Rob Bearden

VP of engineering Mark Himelstein

最新稳定版本

CDH4.6

HDP2.0

文档

很多,容易理解

较少

Demo

很多,容易理解

较少

集群管理工具

需付费,免费功能较少

免费

支持的Apache Hadoop相关开源框架

支持Flume, HBase, HCatalog, Hive, Hue, Impala, Mahout, Oozie, Pig, Cloudera Search, Sentry, Spark, Sqoop, Whirr, ZooKeeper

支持YARN、Stinger、Storm

实时处理架构支持

主推Apache Spark

主推Apache Storm

对专有代码的依赖

较高

较低

 

4.      综合以上分析,个人感觉目前还是使用CDH4比较稳妥,当然将继续关注HDP的发展,未来也许是属于HDP的,因为对于用户来说比较重要的两点集群管理工具、对专有代码的依赖都是HDP较有利。

确定了Hadoop架构后我们还需要确定与SQL交互采用什么框架,还有实时情况下采用哪种架构。

 

下图为Storm VS Spark:

 

Strom

Spark

开源

100%

100%

版本

0.9.1

0.8.0

Hadoop架构联盟

HDP

CDH4

运行方式

数据以流的方式流入到指定的机器节点上,在这些节点上执行计算步骤

将大量数据存储在内存中,数据和计算的关系类似于Hadoop,在数据量到位后计算随即在该节点上展开

是否支持并行计算

支持

支持

善长点

被适合于计算数据较小的情况

适合于被计算数据较大的情况

文档

项目创建不久,不是很多

项目创建不久,不是很多

由于选择了CDH4,所以Storm和Spark的选择也就有了结果,目前先用Spark。

 

下图为Hive VS Impala

 

Hive

Impala

是否开源

100%

100%

创始组织

Apache

Apache

Hadoop架构联盟

CDH4

CDH4

工作原理

运用MapReduce操作数据,所以它是基于Hadoop架构的

运用缓存机制来缓存存在于HDFS中的数据,所以它与Hadoop架构是分离的

适用场景

数据量较大时

数据量较小时

   目前来看,选择Hive较为合适,当然我们可以两者并行研究,对于不同的用户需求提供不同的解决方案。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签:  挑选Hadoop版本