您的位置:首页 > 运维架构

Hadoop基础知识

2016-03-06 10:40 232 查看
去年11月份开始通过书籍、视频以及技术资料来学习Hadoop,并在虚拟机上把Hadoop伪分布式集群搭了起来。然而本人还是没有养成及时用博客记录的习惯(或者说生性慵懒吧~),相应的博客一直欠着,此外数据结构、爬虫等也没有及时记录学习历程。不过出来混总是要还的嘛,既然当年下定决心要好好维护自己的博客,趁最近不算忙,欠着的博客慢慢补起!

传统的数据可能数据量较小,可以在单机条件下短时间内跑完。但时至今日,随着移动互联网时代的来临,数据的采集愈发简便,数据量也呈爆发式增长。对于庞大的数据量,单机环境下的计算任务过大,往往需要运行很长很长一段时间甚至直接宕机。因此需要使用分布式计算,简而言之就是将数据分配到多台机器上计算,这些机器分工合作,共同解决一个问题,从而缩短计算时间。

Hadoop是分布式系统基础架构,解决大数据场景下的问题,使得相关技术人员能够用简单的计算机代码完成复杂的节点部署、数据分配、并行计算等任务。Hadoop上的projects主要包括以下几个部分:

Hadoop Common:基础设施,为Hadoop的其它功能模块提供支持

HDFS: Hadoop Distributed File System,存取和读取数据的分布式文件系统

YARN:负责进程管理和各节点资源调配,类似于操作系统

MapReduce:基于YARN并行计算框架

Habase:存储结构化数据的分布式数据库

Hive:可提供数据查询、整合的数据仓库基础设施,HQL类似于SQL

Mahout:数据挖掘库

Pig:并行计算的执行框架以及高级的数据流语言

Spark:强大的并行计算框架,正如其名,其发展势头如星火燎原一般,广义上也属于Hadoop家族。以后会单独拎出来讲。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: