您的位置:首页 > 运维架构

hadoop简介note

2015-08-30 18:54 375 查看



openstack 构建公司的私有云

hadoop4个特性



1. 扩容能力(scalable)

能可靠(reliably)地存储数据

2. 成本低

通过普通机器组成的服务器群来分发以及处理数据,这些服务器总计可以达数千个节点

3. 高效率

通过分发数据hadoop可以在数据所在的节点上并行地处理他们

4. 可靠性

自动地维护数据的多分复制, 并且在任务失败后能自动地重新部署计算任务

思想

HDFS+ MR

尽可能移动计算到数据端,而非移动数据到计算端

硬件和组件的故障是一种常态

hdfs

但此文件写入多次读取, 文件副本,分片保存

顺序写入,流式顺序读取,面向大文件存储

MR

分而治之,化整为零

排序优化,简单低内存

mapreduce的核心就是对数据的排序优化

hadoop1.0内核

hadoop common

HDFS

mapreduce

2.0

common

hdfs

mapreduce

yarn 资源管理平台

1.0框架



ETL从数据库抽取数据,并进行一系列的数据清理和清洗数据, 将合格的数据进行装换成一定个数数据进行存储, 将格式化的数据存储在hdfs文件系统上, 以供计算框架进行数据分析和挖掘.

格式化数据:

1. TSV格式: 每行数据的每列之间以[制表符 \t] 进行分割

2. csv格式: 每行数据以[,] 进行分割

sqoop :

将关系型数据库中的数据与hdfs( 文件, hbase中的表,hive中的表) 上的数据进行相互导入导出.

flume:日志收集放到hdfs上.

2.0多了yarn



yarn :调度作用.分配资源(容器).

多的特性:

namenode ,secondnamenode

yarn

hadoop1.x服务

组成



1. namenode: 属于管理层,用于管理数据的存储

2. Secondarynamenode:也属于管理层, 辅助namenode进行管理

3. datanode: 属于应用层, 用户记性数据存储, 被namenode进行管理,要定时的想namenode进行工作汇报,执行namenode分配分发的任务

4. Mapreduce, 分布式的并行计算扩建

jobTracker: 属于管理层, 管理集群资源和任务进行调度

TaskTracker::属于应用层,执行jobtraker分配分发的任务, 并向jobtracker汇报任务



守护进程的作用

namenode是主节点, 存储文件的元数据如文件名,文件目录结构,文件属性(生成时间,副本数,文件权限),以及每个文件的块列表和块所在datanode等.

DataNode在本地文件系统存储文件块数据,以及快数据的校验和.

SecondaryNameNode用来监控HDFS状态的辅助后台程序,每个一段时间获取HDFS元数据的快照.

jobTraker负责接收用户提交的作业, 负责启动, 跟踪任务执行

taskTracker负责执行有lobtracker分配的任务, 管理各个任务在每个节点上的执行情况.

内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: