Hadoop基础知识
2016-03-06 10:40
232 查看
去年11月份开始通过书籍、视频以及技术资料来学习Hadoop,并在虚拟机上把Hadoop伪分布式集群搭了起来。然而本人还是没有养成及时用博客记录的习惯(或者说生性慵懒吧~),相应的博客一直欠着,此外数据结构、爬虫等也没有及时记录学习历程。不过出来混总是要还的嘛,既然当年下定决心要好好维护自己的博客,趁最近不算忙,欠着的博客慢慢补起!
传统的数据可能数据量较小,可以在单机条件下短时间内跑完。但时至今日,随着移动互联网时代的来临,数据的采集愈发简便,数据量也呈爆发式增长。对于庞大的数据量,单机环境下的计算任务过大,往往需要运行很长很长一段时间甚至直接宕机。因此需要使用分布式计算,简而言之就是将数据分配到多台机器上计算,这些机器分工合作,共同解决一个问题,从而缩短计算时间。
Hadoop是分布式系统基础架构,解决大数据场景下的问题,使得相关技术人员能够用简单的计算机代码完成复杂的节点部署、数据分配、并行计算等任务。Hadoop上的projects主要包括以下几个部分:
Hadoop Common:基础设施,为Hadoop的其它功能模块提供支持
HDFS: Hadoop Distributed File System,存取和读取数据的分布式文件系统
YARN:负责进程管理和各节点资源调配,类似于操作系统
MapReduce:基于YARN并行计算框架
Habase:存储结构化数据的分布式数据库
Hive:可提供数据查询、整合的数据仓库基础设施,HQL类似于SQL
Mahout:数据挖掘库
Pig:并行计算的执行框架以及高级的数据流语言
Spark:强大的并行计算框架,正如其名,其发展势头如星火燎原一般,广义上也属于Hadoop家族。以后会单独拎出来讲。
传统的数据可能数据量较小,可以在单机条件下短时间内跑完。但时至今日,随着移动互联网时代的来临,数据的采集愈发简便,数据量也呈爆发式增长。对于庞大的数据量,单机环境下的计算任务过大,往往需要运行很长很长一段时间甚至直接宕机。因此需要使用分布式计算,简而言之就是将数据分配到多台机器上计算,这些机器分工合作,共同解决一个问题,从而缩短计算时间。
Hadoop是分布式系统基础架构,解决大数据场景下的问题,使得相关技术人员能够用简单的计算机代码完成复杂的节点部署、数据分配、并行计算等任务。Hadoop上的projects主要包括以下几个部分:
Hadoop Common:基础设施,为Hadoop的其它功能模块提供支持
HDFS: Hadoop Distributed File System,存取和读取数据的分布式文件系统
YARN:负责进程管理和各节点资源调配,类似于操作系统
MapReduce:基于YARN并行计算框架
Habase:存储结构化数据的分布式数据库
Hive:可提供数据查询、整合的数据仓库基础设施,HQL类似于SQL
Mahout:数据挖掘库
Pig:并行计算的执行框架以及高级的数据流语言
Spark:强大的并行计算框架,正如其名,其发展势头如星火燎原一般,广义上也属于Hadoop家族。以后会单独拎出来讲。
相关文章推荐
- 《软件架构设计.第二版解析软件架构概念》阅读笔记——到底什么是软件架构?
- Tomcat之一系列新手问题全解决
- CentOS 7 配置163源
- linux安全第二周总结
- 从无重复大数组找TOP N元素的最优解说起
- linux下的二进制文件的编辑和查看
- tomcat发布项目时,localhost可以访问,用ip地址不能访问,同时其他电脑也不能访问。
- HDU 5638 Toposort
- linux文件查找
- Linux内核分析作业二
- 常用的Linux操作命令(一)
- 合理规划硬盘分区 fdisk命令的使用
- Code Recyclebin Contact me QQ:149906878 Write operations are not allowed in read-only mode (FlushMo
- Docker简介
- linux内核read操作源代码分析
- linux内核权限控制之vfs_permission分析
- Linux调优常用命令
- linux中安装easy_install(setuptools)
- Linux内核驱动自动创建设备节点文件
- A way to connect to network through WIFI on Centos 7