您的位置:首页 > 运维架构

Hadoop 通俗理解

2015-07-12 17:07 169 查看
什么是Hadoop?

维基百科上面,Hadoop的定义是:一个用java语言编写的便于大型数据集合的分布式储存和计算的软件框架。简单来说,这是计算机领域的一个开源软件,任何程序开发者都可以看到它的源代码,并且进行编译。它的出现让大数据的储存和处理一下子变的快了很多,也便宜了很多。

Hadoop是怎么做到将大数据储存和处理变得又快又便宜的?

这个讲起来可以讲三天三夜呢。不过举个简单的例子,现在需要数一个图书馆有多少本书,一个人数肯定很慢,需要很多个人数,而且最好每一个区域的书都有2-3个人数一遍,这样统计的数量才比较准确。所以就需要有一个机制将书籍分好区,规定每一个人负责数哪几个区的书,这样即使有人生病了也不会影响到总体统计工作的完成。这里的人就是Hadoop所操控的一台台个人计算机,机制就是Hadoop的核心MapReduce方法。在我看来,Hadoop的分布式计算功能就像一个精明的资本家设计的工作分配制度,既保证工作的完成不会特别依赖某一个人,又保证了如果工作量上升了只需要再雇一个劳工就能解决问题。



Hadoop Summit 2015微软数据平台副总裁Ranga主题演讲截图,展示零售业,医疗,支付,教育,机器维护和交通领域基于Hadoop技术的数据红利(Data Dividend)

Hadoop的作用

ForresterResearch(一家著名的咨询公司)的首席分析师Mike Gualtieri在峰会中预测,100%的大企业已经或将在未来2-3年内开始使用Hadoop。不管你是能源,通信,医疗,娱乐,生产制造,互联网行业的企业,你的数据总是会越来越多,而如果需要从这些海量数据中挖掘出价值,提高企业的整体竞争力,你就需要一个强大的储存和处理数据的能力,Hadoop及其泛生态圈就能帮你实现!
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: