您的位置：首页 > 运维架构

Hadoop基础知识

2016-03-06 10:40 232 查看

去年11月份开始通过书籍、视频以及技术资料来学习Hadoop,并在虚拟机上把Hadoop伪分布式集群搭了起来。然而本人还是没有养成及时用博客记录的习惯（或者说生性慵懒吧~），相应的博客一直欠着，此外数据结构、爬虫等也没有及时记录学习历程。不过出来混总是要还的嘛，既然当年下定决心要好好维护自己的博客，趁最近不算忙，欠着的博客慢慢补起！

传统的数据可能数据量较小，可以在单机条件下短时间内跑完。但时至今日，随着移动互联网时代的来临，数据的采集愈发简便，数据量也呈爆发式增长。对于庞大的数据量，单机环境下的计算任务过大，往往需要运行很长很长一段时间甚至直接宕机。因此需要使用分布式计算，简而言之就是将数据分配到多台机器上计算，这些机器分工合作，共同解决一个问题，从而缩短计算时间。

Hadoop是分布式系统基础架构，解决大数据场景下的问题，使得相关技术人员能够用简单的计算机代码完成复杂的节点部署、数据分配、并行计算等任务。Hadoop上的projects主要包括以下几个部分：

Hadoop Common:基础设施，为Hadoop的其它功能模块提供支持

HDFS: Hadoop Distributed File System,存取和读取数据的分布式文件系统

YARN:负责进程管理和各节点资源调配，类似于操作系统

MapReduce:基于YARN并行计算框架

Habase:存储结构化数据的分布式数据库

Hive:可提供数据查询、整合的数据仓库基础设施，HQL类似于SQL

Mahout:数据挖掘库

Pig:并行计算的执行框架以及高级的数据流语言

Spark:强大的并行计算框架，正如其名，其发展势头如星火燎原一般，广义上也属于Hadoop家族。以后会单独拎出来讲。

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航