您的位置:首页 > 运维架构

初识hadoop

2018-02-10 11:45 218 查看
1.什么是hadoop
hadoop是一个可靠(reliable)的、可扩展(scalable)的分布式(distributed)的开源计算框架!
Apache hadoop 允许分布式处理的一个软件,并且跨越在集群的机器上(意思是数据分开存储在各个节点之上的),并且使用一种简单的编程模型。可以从单个数据信号扩展到成百上千台机器上。
2.hadoop主要包含了哪些模块
hadoop common(通用包):提供了一些工具类(支持hadoop其他框架)
HDFS(hadoop distributed file system分布式文件系统):负责数据的存储
hadoop yarn:提供作业的调度和集群资源的管理
MapReduce:基于yarn的能够并行计算大数据集处理的一个框架
3.hadoop能做什么
能够搭建大型的数据仓库,pb级别的数据存储、处理、分析和统计等业务(如搜索引擎、日志分析、商业智能、数据挖掘)。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: