初识大数据Hadoop - New Start
2017-10-14 11:44
239 查看
最近几年,大数据站在风口浪尖,国内外相关技术发展得如火如荼,近半年我也开始接触Hadoop基础技术,对Hadoop生态圈有一点了解。
今天对相关内容做一个简单的梳理总结:
1.国内外厂商群雄逐鹿,有代表的发行版厂商:Cloudera、HDP、MapR、Inter、华为、星环、四方伟业等等,有代码贡献能力的主要就Cloudera、HDP、MapR及国内的华为。
2. Hadoop核心:HDFS (Hadoop分布式文件系统):提供了分布式部署、数据3备份的高度容错的系统、基于管理与存储分立的集群部署方案。
YARN (Yet Another ResourceNegotiator,另一种资源协调者)是一种新的 Hadoop
资源管理器,该组件主要解决Hadoop1.x框架问题产生的新型管理框架。它的引入为集群在利用率、资源统一管理和数据共享等方面带来了巨大好处。
MapReduce(分布式计算框架):Hadoop1.x就有,属于最早的组件,特点是非实时计算使用,稳定,可靠。缺点是计算效率低,主要原因是Map与Reduce过程中产生中间计算过程文件,多次读写文件。同时集群节点间中间结果数据进行汇总转移,对带宽有依赖。
Hive(基于Hadoop的数据仓库):HIVE对Hadoop依赖很大,定义了一种类似SQL的查询语言(HQL),将SQL转化为MapReduce任务在Hadoop上执行。查询任务主要用到了MapReduce的计算来实现。这样造成Hive的查询效率不高。
HBase(分布式列存数据库):HBase是一个面向列的实时分布式数据库,采用了BigTable的数据模型:增强的稀疏排序映射表(Key/Value),其中,键由行关键字、列关键字和时间戳构成。HBase提供了对大规模数据的随机、实时读写访问,同时,HBase中保存的数据可以使用MapReduce来处理,它将数据存储和并行计算完美地结合在一起。
HBase特点:引入了列存储级大数据表,同时对部分热点数据采用了内存存储的方式,相比Hive的效率要更高。
Zookeeper(分布式协作服务):解决分布式环境下的数据管理问题:统一命名,状态同步,集群管理,配置同步等,大数据集群不可或缺的组件。
今天对相关内容做一个简单的梳理总结:
1.国内外厂商群雄逐鹿,有代表的发行版厂商:Cloudera、HDP、MapR、Inter、华为、星环、四方伟业等等,有代码贡献能力的主要就Cloudera、HDP、MapR及国内的华为。
2. Hadoop核心:HDFS (Hadoop分布式文件系统):提供了分布式部署、数据3备份的高度容错的系统、基于管理与存储分立的集群部署方案。
YARN (Yet Another ResourceNegotiator,另一种资源协调者)是一种新的 Hadoop
资源管理器,该组件主要解决Hadoop1.x框架问题产生的新型管理框架。它的引入为集群在利用率、资源统一管理和数据共享等方面带来了巨大好处。
MapReduce(分布式计算框架):Hadoop1.x就有,属于最早的组件,特点是非实时计算使用,稳定,可靠。缺点是计算效率低,主要原因是Map与Reduce过程中产生中间计算过程文件,多次读写文件。同时集群节点间中间结果数据进行汇总转移,对带宽有依赖。
Hive(基于Hadoop的数据仓库):HIVE对Hadoop依赖很大,定义了一种类似SQL的查询语言(HQL),将SQL转化为MapReduce任务在Hadoop上执行。查询任务主要用到了MapReduce的计算来实现。这样造成Hive的查询效率不高。
HBase(分布式列存数据库):HBase是一个面向列的实时分布式数据库,采用了BigTable的数据模型:增强的稀疏排序映射表(Key/Value),其中,键由行关键字、列关键字和时间戳构成。HBase提供了对大规模数据的随机、实时读写访问,同时,HBase中保存的数据可以使用MapReduce来处理,它将数据存储和并行计算完美地结合在一起。
HBase特点:引入了列存储级大数据表,同时对部分热点数据采用了内存存储的方式,相比Hive的效率要更高。
Zookeeper(分布式协作服务):解决分布式环境下的数据管理问题:统一命名,状态同步,集群管理,配置同步等,大数据集群不可或缺的组件。
相关文章推荐
- R语言和Hadoop系统架构在大数据分析中的应用
- 大数据系列(2)——Hadoop集群坏境CentOS安装
- Big Data--1, 初识hadoop
- 【大数据】Hadoop入门预告版
- Hadoop大数据视频教程-第一季:真实电商数据仓库全流程开发详解
- hadoop大数据基础框架技术详解
- Spark VS Hadoop:两大大数据分析系统深度解读
- 2012 Hadoop与大数据技术大会盛大开幕
- 【备忘】最新spark/hadoop/hbase/hive/kafka/redies大数据视频教程
- 一:初识Hadoop
- 黑马JAVAEE+Hadoop大数据视频大集合
- Hadoop大数据时代:Hadoop&YarnSpark企业级最佳实践 (4天)
- Hadoop第一天---初识Hadoop
- 初识hadoop
- 基于hadoop与spark的大数据分析实战——第一章 Hadoop部署与实践
- 《Hadoop基础教程》之初识Hadoop
- 王家林“云计算分布式大数据Hadoop实战高手之路---从零开始”的第一讲Hadoop图文训练课程:10分钟理解云计算分布式大数据处理框架Hadoop
- 初识大数据:Hadoop、Spark、Storm
- 大数据服务 hadoop+spark
- 基于Hadoop大数据分析应用场景与实战