您的位置:首页 > 运维架构

从零开始学Hadoop----初识

2016-05-04 15:34 330 查看
我们知道大数据的时代已经到来,之前就给大家分享了应对大数据的非关系型数据库redis。今天,我们再来看看处理和分析海量数据的神器——hadoop。

一、是什么

1、概念

Hadoop是一个开源的框架,可编写和运行分布式应用处理大规模数据,是专为离线和大规模数据分析而设计的,并不适合那种对几个记录随机读写的在线事务处理模式。

Hadoop 是以一种可靠、高效、可伸缩的方式进行处理的。Hadoop 是可靠的,因为它假设计算元素和存储会失败,因此它维护多个工作数据副本,确保能够针对失败的节点重新分布处理。Hadoop 是高效的,因为它以并行的方式工作,通过并行处理加快处理速度。Hadoop 还是可伸缩的,能够处理 PB 级数据。

2、核心

Hadoop的核心就是HDFS和MapReduce,而两者只是理论基础,不是具体可使用的高级应用,Hadoop旗下有很多经典子项目,比如HBase、Hive等,这些都是基于HDFS和MapReduce发展出来的。要想了解Hadoop,就必须知道HDFS和MapReduce是什么。

HDFS

HDFS(Hadoop Distributed File System,Hadoop分布式文件系统),它是一个高度容错性的系统,适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问,适合那些有着超大数据集(large data set)的应用程序。



MapReduce

Mapreduce是一个计算框架,一个处理分布式海量数据的软件框架及计算集群。



二、干什么

1、应用

搜索引擎(Doug Cutting  设计Hadoop的初衷,为了针对大规模的网页快速建立索引)。


大数据存储,利用Hadoop的分布式存储能力,例如数据备份、数据仓库等。


大数据处理,利用Hadoop的分布式处理能力,例如数据挖掘、数据分析等。


科学研究,Hadoop是一种分布式的开源框架,对于分布式计算有很大程度地参考价值。


2、优缺点

优点

高可靠性。
Hadoop按位存储和处理数据的能力值得人们信赖。


高扩展性。
Hadoop是在可用的计算机集簇间分配数据并完成计算任务的,这些集簇可以方便地扩展到数以千计的节点中。


高效性。
Hadoop能够在节点之间动态地移动数据,并保证各个节点的动态平衡,因此处理速度非常快。


高容错性。
Hadoop能够自动保存数据的多个副本,并且能够自动将失败的任务重新分配。


低成本。
与一体机、商用数据仓库以及QlikView、Yonghong Z-Suite等数据集市相比,hadoop是开源的,项目的软件成本因此会大大降低。


缺点

不适合低延迟数据访问。


无法高效存储大量小文件。


不支持多用户写入及任意修改文件。


总结:

今天我们简单认识了一下Hadoop,知道了hadoop在大数据处理中的重要作用,以后我们将逐步学习hadoop,希望对喜欢hadoop的人有所帮助。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: