hadoop简介note
2015-08-30 18:54
375 查看
云
openstack 构建公司的私有云
hadoop4个特性
1. 扩容能力(scalable)
能可靠(reliably)地存储数据
2. 成本低
通过普通机器组成的服务器群来分发以及处理数据,这些服务器总计可以达数千个节点
3. 高效率
通过分发数据hadoop可以在数据所在的节点上并行地处理他们
4. 可靠性
自动地维护数据的多分复制, 并且在任务失败后能自动地重新部署计算任务
思想
HDFS+ MR尽可能移动计算到数据端,而非移动数据到计算端
硬件和组件的故障是一种常态
hdfs
但此文件写入多次读取, 文件副本,分片保存
顺序写入,流式顺序读取,面向大文件存储
MR
分而治之,化整为零
排序优化,简单低内存
mapreduce的核心就是对数据的排序优化
hadoop1.0内核
hadoop commonHDFS
mapreduce
2.0
commonhdfs
mapreduce
yarn 资源管理平台
1.0框架
ETL从数据库抽取数据,并进行一系列的数据清理和清洗数据, 将合格的数据进行装换成一定个数数据进行存储, 将格式化的数据存储在hdfs文件系统上, 以供计算框架进行数据分析和挖掘.
格式化数据:
1. TSV格式: 每行数据的每列之间以[制表符 \t] 进行分割
2. csv格式: 每行数据以[,] 进行分割
sqoop :
将关系型数据库中的数据与hdfs( 文件, hbase中的表,hive中的表) 上的数据进行相互导入导出.
flume:日志收集放到hdfs上.
2.0多了yarn
yarn :调度作用.分配资源(容器).
多的特性:
namenode ,secondnamenode
yarn
hadoop1.x服务
组成
1. namenode: 属于管理层,用于管理数据的存储
2. Secondarynamenode:也属于管理层, 辅助namenode进行管理
3. datanode: 属于应用层, 用户记性数据存储, 被namenode进行管理,要定时的想namenode进行工作汇报,执行namenode分配分发的任务
4. Mapreduce, 分布式的并行计算扩建
jobTracker: 属于管理层, 管理集群资源和任务进行调度
TaskTracker::属于应用层,执行jobtraker分配分发的任务, 并向jobtracker汇报任务
守护进程的作用
namenode是主节点, 存储文件的元数据如文件名,文件目录结构,文件属性(生成时间,副本数,文件权限),以及每个文件的块列表和块所在datanode等.DataNode在本地文件系统存储文件块数据,以及快数据的校验和.
SecondaryNameNode用来监控HDFS状态的辅助后台程序,每个一段时间获取HDFS元数据的快照.
jobTraker负责接收用户提交的作业, 负责启动, 跟踪任务执行
taskTracker负责执行有lobtracker分配的任务, 管理各个任务在每个节点上的执行情况.
相关文章推荐
- linux中的文件结构
- Python脚本获取Linux系统信息
- redhat6.5 配置使用centos的yum源
- php 利用dede搭建一个模板网站
- 常见linux命令释义(第二天)
- CentOS修改时区
- 智能家居监控移动手机组态现实生活中的应用
- 利用相关性提高网站关键词排名
- 提高网站关键词排名之——网站内容质量及相关性
- 企业网站如何提高内容的相关性
- Linux程序包管理工具简介
- LINUX安装源码软件经典三部曲
- myeclipse新建项目部署到tomcat中,点击finish键没反应
- linux yum的配置文件 repo文件详解
- Linux下搭建yum服务器
- Linux的启动过程
- 通过Powershell 来监控华为无线设备 推荐
- 9月1日起Chrome中止自动播放Flash广告
- Linux中通过命令行监控股票报价
- Powershell技巧 判断一个AD账户是否存在