您的位置:首页 > 运维架构

每天一点hadoop 第一篇(hadoop简介)

2015-04-13 10:28 381 查看
在数据为王的即将到来的时代,数据经济的时代。作为一个大学生,非常幸运的接触到了这一时代的潮流。我写这个就是想总结一些知识,方便自己复习,如果有什么错误,希望大神看到后能够帮我指出,我将不胜感激。现在可能只是hadoop的一些知识和自己的想法,我想慢慢的当我学习的不断深入后可以有自己任性的看法。

第一篇那么就简单的介绍一下我所知道的hadoop的起源,以及自己的一些学习经验。

Hadoop是一个由Apache基金会所开发的分布式基础架构。充分利用集群的威力进行高速运算和存储。Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。Hadoop是一个能够对大量数据进行分布式处理的软件框架。Hadoop 是可靠的,因为它假设计算元素和存储会失败,因此它维护多个工作数据副本,确保能够针对失败的节点重新分布处理。HDFS有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(high
throughput)来访问应用程序的数据,适合那些有着超大数据集集(lagreddata set)的应用程序。HDFS放宽了(relax)POSIX的要求,可以以流的形式访问(streaming access)文中的数据。Hadoop的框架最核心的设计就是:HDFS和MapReduce。HDFS为海量的数据提供了存储,则MapReduce为海量的数据提供了计算(节选自必应宝典)。除了这MapReduce和HDFS外,还有其他的生态系统。首先是分布式数据库HBASE,数据库查询工具HIve,Pig。还有Zookper作为集群的管理工具。还有sqoop
flume 以及Mahout这个工具。



除此之外还有一些工具不断的整合在hadoop上,例如R语言形成的RHADOOP在未来会慢慢流行起来,方便统计学应用hadoop,当然在matlab上也有对于hadoop的功能(在最新的版本上)。hadoop 也在不断的发展除了能存储大量数据外,hadoop也在增加自己的实时数据处理能力。在hadoop0.23或者hadoop2.X的上的yarn平台,也是可以兼容strom spark等实时处理工具的,使一些需要在hadoop上运行实时数据的处理工作的公司,有了更好的选择。在yarn这个版本上对于之前的hadoop版本也是有许多优化的,例如namenode
的个数上等等。这将在以后的文章中进行总结。


除此之外还有一些公司对hadoop进行了商业化发行其中做的比较好的是Cloudera公司发布的hadoop简称CDH。很多工具包都集合在了CDH的版本上。当然除此之外还有很多公司对于hadoop进行了不同的商业版的发行。例如IBM就有针对hadoop的发行产品IBM BigInsights。中国的阿里巴巴 ,百度都曾经使用过hadoop。

这就是第一篇虽然有很多方面没有介绍到但在今后的内容我一定会慢慢补全,不断学习的。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: