您的位置：首页 > 大数据

初识大数据Hadoop - New Start

2017-10-14 11:44 239 查看

最近几年，大数据站在风口浪尖，国内外相关技术发展得如火如荼，近半年我也开始接触Hadoop基础技术，对Hadoop生态圈有一点了解。

今天对相关内容做一个简单的梳理总结：

1.国内外厂商群雄逐鹿，有代表的发行版厂商：Cloudera、HDP、MapR、Inter、华为、星环、四方伟业等等，有代码贡献能力的主要就Cloudera、HDP、MapR及国内的华为。

2. Hadoop核心：HDFS （Hadoop分布式文件系统）：提供了分布式部署、数据3备份的高度容错的系统、基于管理与存储分立的集群部署方案。

YARN （Yet Another ResourceNegotiator，另一种资源协调者）是一种新的 Hadoop
资源管理器，该组件主要解决Hadoop1.x框架问题产生的新型管理框架。它的引入为集群在利用率、资源统一管理和数据共享等方面带来了巨大好处。

MapReduce（分布式计算框架）：Hadoop1.x就有，属于最早的组件，特点是非实时计算使用，稳定，可靠。缺点是计算效率低，主要原因是Map与Reduce过程中产生中间计算过程文件，多次读写文件。同时集群节点间中间结果数据进行汇总转移，对带宽有依赖。

Hive（基于Hadoop的数据仓库）：HIVE对Hadoop依赖很大，定义了一种类似SQL的查询语言(HQL),将SQL转化为MapReduce任务在Hadoop上执行。查询任务主要用到了MapReduce的计算来实现。这样造成Hive的查询效率不高。

HBase（分布式列存数据库）：HBase是一个面向列的实时分布式数据库，采用了BigTable的数据模型：增强的稀疏排序映射表（Key/Value），其中，键由行关键字、列关键字和时间戳构成。HBase提供了对大规模数据的随机、实时读写访问，同时，HBase中保存的数据可以使用MapReduce来处理，它将数据存储和并行计算完美地结合在一起。

HBase特点：引入了列存储级大数据表，同时对部分热点数据采用了内存存储的方式，相比Hive的效率要更高。

Zookeeper（分布式协作服务）：解决分布式环境下的数据管理问题：统一命名，状态同步，集群管理，配置同步等，大数据集群不可或缺的组件。

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签： 大数据 hadoop

相关文章推荐

新的分享

章节导航