hadoop生态系统组件目前的理解(先记录,有些地方理解不正确,后面修改)
2015-10-30 11:20
441 查看
一,yarn
ResourceManager、Nodemanager、App Master。ResourceManager拿到任务后,根据掌握的各个NodeManager的资源情况,决定在哪些主机上创建App Master。
各个App Master与本机的NodeManager申请Container后,在本机运行启动多个map和reduce。
Hadoop 新 MapReduce 框架 Yarn 详解
hadoop杂记-为什么会有Map-reduce v2 (Yarn)
YARN/MRv2 Resource Manager深入剖析—RM总体架构
二,hdfs
NameNode、SecondaryNameNode、DataNode。NameNode就是Index的作用。没有什么好说的。如果有机器Down掉了,NameNode会从备用机架上的节点找出备份返回。
Hadoop中Namenode单点故障的解决方案分析
【HBase】图解 HDFS 工作原理
三,ZooKeeper
一致性服务的组件。ZooKeeper典型应用场景
利用Zookeeper对HDFS中Namenode单点失败的改进方法
zookeeper原理
四,HBase
kv,只支持一级index。Reference Guide
Hbase 使用方法
HBase在淘宝的应用和优化小结
HBase在腾讯大数据的应用实践
HBase在内容推荐引擎系统中的应用
HBase基本数据操作详解
Hbase的存储 Rowkey设计
HBase 系统架构
hbase shell基础和常用命令详解
五,Hive
用于数据仓库,表级别的处理。不建立索引,不是用来高速查询的。hive应用实例
hive介绍
六,Oozie
多个Map Reduce程序的调度。配置xml。Oozie简介
七,Sqoop
主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql...)间进行数据的传递,可以将一个关系型数据库(例如 : MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。利用SQOOP将数据从数据库导入到HDFS
八,Hue
Hadoop可视化分析利器之Hue九,Flume
Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力。flume 1.4的介绍及使用示例
应用Flume+HBase采集和存储日志数据
让你系统认识flume及安装和使用flume1.5传输数据到hadoop2.2
十,Impala
Impala入门笔记十一,Pig
Apache Pig的一些基础概念及用法总结Getting Started
相关文章推荐
- Linux必备技能:vi的使用
- CentOS和ubuntu修改hostname的区别
- 使用Rest工具向OpenStack消息发送指导
- Hadoop2.x集群动态添加删除数据节点
- 关于openstack部分计算节点无法实现热迁移问题描述
- 重命名USB磁盘挂载分区卷标
- Hadoop的疑惑点(持续更新)
- hadoop2.7.1在ubuntu上的集群配置
- Linux下网卡报Device eth0 does not seem to be present, delaying initialization.错误的解决方案
- fopen使用的"r"的区别"rb"
- shell技巧
- shell技巧
- Codeforces Round #327 (Div. 1) D. Top Secret Task(DP)
- CentOS7搭建源并使用
- 技术博客网站推荐
- tomcat 解决ssi 异常问题
- WEB三层架构与MVC
- svn在Linux环境下仓库的创建与权限访问
- ubuntu彻底干净卸载MySQL、Apache2、Php的方法(各版本通用
- iOS项目架构