您的位置:首页 > 运维架构 > Apache

Welcome to Apache™ Hadoop®!

2017-01-12 15:23 274 查看

什么是Hadoop?

Hadoop是一个可靠的,可扩展的,分布式计算的开源软件。

包括一下四个模块:

Hadoop Common:常见的实用程序,支持其他Hadoop模块。

Hadoop Distributed File System(HDFS):高传输速率的分布式文件系统。

Hadoop Yarn:Job调度和集群资源管理的框架

Hadoop MapReduce:基于YARN系统的并行处理大数据集的编程模型

其他Hadoop相关的项目(Hadoop生态圈)

Ambari:一个基于web的工具,用来供应、管理和监测Apache Hadoop集群包括支持Hadoop HDFS、Hadoop MapReduce、Hive、HCatalog、HBase、ZooKeeper、Oozie、Pig和Sqoop。Ambari 也提供一个可视的仪表盘来查看集群的健康状态(比如热图),并且能够以一种用户友好的方式根据其特点可视化的查看MapReduce、pig和Hive 应用来诊断其性能特征。

Avro :数据序列化系统。

Cassandra :可扩展的多主节点数据库,而且没有单节点失败情况。

Chukwa : 管理大型分布式系统的数据收集系统

HBase ; 一个可扩展的分布式数据库,支持大表的结构化数据存储

Hive : 一个提供数据概述和AD组织查询的数据仓库

Mahout :可扩展大的机器学习和数据挖掘库

Pig :一个支持并行计算的高级的数据流语言和执行框架

Spark : 一个快速通用的Hadoop数据的计算引擎。spark 提供一个简单和富有表现力的编程模型并支持多领域应用,包括ETL、机器学习、流处理 和图计算。

Tez : 一个通用的数据流处理框架,构建在Hadoop YARN上,提供一个有力的灵活的引擎来执行一个任意的DAG任务来处理数据(批处理和交互式两种方式)。Tez 可以被Hive、Pig和其他Hadoop生态系统框架和其他商业软件(如:ETL工具)使用,用来替代Hadoop MapReduce 作为底层的执行引擎。

ZooKeeper :一个应用于分布式应用的高性能的协调服务。

开始学习hadoop

了解Hadoop

下载Hadoop

讨论Hadoop

使用Hadoop

Hadoop的版本

Apache Hadoop使用。。的版本格式。

major:主要版本用于引入大量的,可能不兼容的更改。

minor:次要版本用于在主要发行版本中引入新的兼容功能。

maintenance:维护版本包括错误修复或低风险可支持性更改。

“-alphaX”和“-betaX”后缀版本可以被视为a.b.c版本,第一个(例如“-alpha1”)是a.b.0版本。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签:  hadoop