您的位置:首页 > 大数据

初识大数据Hadoop - New Start

2017-10-14 11:44 239 查看
  最近几年,大数据站在风口浪尖,国内外相关技术发展得如火如荼,近半年我也开始接触Hadoop基础技术,对Hadoop生态圈有一点了解。

今天对相关内容做一个简单的梳理总结:

1.国内外厂商群雄逐鹿,有代表的发行版厂商:Cloudera、HDP、MapR、Inter、华为、星环、四方伟业等等,有代码贡献能力的主要就Cloudera、HDP、MapR及国内的华为。

2. Hadoop核心:HDFS  (Hadoop分布式文件系统):提供了分布式部署、数据3备份的高度容错的系统、基于管理与存储分立的集群部署方案。

                               

                               YARN (Yet Another ResourceNegotiator,另一种资源协调者)是一种新的 Hadoop
资源管理器,该组件主要解决Hadoop1.x框架问题产生的新型管理框架。它的引入为集群在利用率、资源统一管理和数据共享等方面带来了巨大好处。

                               MapReduce(分布式计算框架):Hadoop1.x就有,属于最早的组件,特点是非实时计算使用,稳定,可靠。缺点是计算效率低,主要原因是Map与Reduce过程中产生中间计算过程文件,多次读写文件。同时集群节点间中间结果数据进行汇总转移,对带宽有依赖。

                               Hive(基于Hadoop的数据仓库):HIVE对Hadoop依赖很大,定义了一种类似SQL的查询语言(HQL),将SQL转化为MapReduce任务在Hadoop上执行。查询任务主要用到了MapReduce的计算来实现。这样造成Hive的查询效率不高。

                                    

                               HBase(分布式列存数据库):HBase是一个面向列的实时分布式数据库,采用了BigTable的数据模型:增强的稀疏排序映射表(Key/Value),其中,键由行关键字、列关键字和时间戳构成。HBase提供了对大规模数据的随机、实时读写访问,同时,HBase中保存的数据可以使用MapReduce来处理,它将数据存储和并行计算完美地结合在一起。

                              HBase特点:引入了列存储级大数据表,同时对部分热点数据采用了内存存储的方式,相比Hive的效率要更高。

                                   

                               Zookeeper(分布式协作服务):解决分布式环境下的数据管理问题:统一命名,状态同步,集群管理,配置同步等,大数据集群不可或缺的组件。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签:  大数据 hadoop