您的位置:首页 > 运维架构

Hadoop中的一些概念

2015-12-18 11:16 169 查看
Hadoop:
一个分布式系统架构,充分利用集群的威力进行高速运算和存储
ZooKeeper: 是一个针对大型分布式系统的可靠协调系统,提供的功能包括:配置维护、名字服务、分布式同步、组服务等。
是Hadoop和Hbase的重要组件。 是的
的地方 地方

Zookeeper集群的职责

1、负责监控整个hbase集群中节点的状态和通信。

2、管理hbase 集群的-ROOT-表,即所有HRegion Server的地址和HTable信息。

3、避免HMsater的单点故障问题(重启故障的HMaster;如果zkLeader挂掉,重新选举出leader)。

Sqoop: SQL-to-Hadoop
传统数据库与Hadoop间数据同步工具
利用Mapreduce分布式批处理,加快了数据传输速度,保证了容错性.
将关系数据库导入到HDFS和HIVE表中
使用 sqoop-import 命令可以从关系数据库导入数据到 hdfs。

上面的从MySQL导出数据到HDFS、创建Hive表格、导入数据到Hive三步,可以直接用一条Sqoop命令完成:
sqoop import--connect jdbc:mysql://ip/database --table tb1 --username user -P --hive-import
HDFS:

HDFS是Hadoop分布式文件系统(Hadoop
Distributed File System)的缩写,为分布式计算存储提供了底层支持。采用Java语言开发,可以部署在多种普通的廉价机器上,以集群处理数量积达到大型主机处理性能。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: