HBase知识体系及伪分布安装
2014-03-28 22:00
281 查看
HBase简介
HBase – Hadoop Database,是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBase技术可在廉
价PC Server上搭建起大规模结构化存储集群。HBase利用Hadoop HDFS作为其文件存储系统,利用Hadoop的
MapReduce来处理HBase中的海量数据,利用Zookeeper作为协调工具。
1.HBase(NoSQL)的数据模型
1.1 表(table),是存储管理数据的。
1.2 行键(row key),类似于MySQL中的主键。
行键是HBase表天然自带的。
1.3 列族(column family),列的集合。
HBase中列族是需要在定义表时指定的,列是在插入记录时动态增加的。
HBase表中的数据,每个列族单独一个文件。
1.4 时间戳(timestamp),列(也称作标签、修饰符)的一个属性。
行键和列确定的单元格,可以存储多个数据,每个数据含有时间戳属性,数据具有版本特性。
如果不指定时间戳或者版本,默认取最新的数据。
1.5 存储的数据都是字节数组。
1.6 表中的数据是按照行键的顺序物理存储的。
2.HBase的物理模型
2.1 HBase是适合海量数据(如20PB)的秒级简单查询的数据库。
2.2 HBase表中的记录,按照行键进行拆分, 拆分成一个个的region。
许多个region存储在region server(单独的物理机器)中的。
这样,对表的操作转化为对多台region server的并行查询。
3.HBase的体系结构
3.1 HBase是主从式结构,HMaster、HRegionServer
架构体系
HBase中有两张特殊的Table,-ROOT-和.META.
.META.:记录了用户表的Region信息,.META.可以有多个regoin
-ROOT-:记录了.META.表的Region信息,-ROOT-只有一个region
Zookeeper中记录了-ROOT-表的location
用户请求时会首先查询-ROOT-,然后找到.META.,再定位到用户表的region。
Client 包含访问hbase 的接口,client 维护着一些cache 来加快对hbase 的访问,比如regione 的位置信息
Zookeeper
保证任何时候,集群中只有一个running master
存贮所有Region 的寻址入口
实时监控Region Server 的状态,将Region server 的上线和下线信息,实时通知给Master
存储Hbase 的schema,包括有哪些table,每个table 有哪些column family
Master 可以启动多个HMaster,通过Zookeeper的Master Election机制保证总有一个Master运行
为Region server 分配region
负责region server 的负载均衡
发现失效的region server 并重新分配其上的region
4.HBase的伪分布
4.1 在hadoop0上解压缩、重命名、设置环境变量HBASE_HOME
4.2 修改文件$HBASE_HOME/conf/hbase-env.sh,修改内容如下
export JAVA_HOME=/usr/local/jdk
export HBASE_MANAGES_ZK=true
4.3 修改文件hbase-site.xml,修改内容如下
<property>
<name>hbase.rootdir</name>
<value>hdfs://hadoop0:9000/hbase</value>
</property>
<property>
<name>hbase.cluster.distributed</name>
<value>true</value>
</property>
<property>
<name>hbase.zookeeper.quorum</name>
<value>hadoop0</value>
</property>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
4.4 (可选)修改regionservers,具体操作见ppt
4.5 启动,执行命令start-hbase.sh
注意:启动hbase之前要先启动hadoop,确保hadoop可写入数据。
HBase – Hadoop Database,是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBase技术可在廉
价PC Server上搭建起大规模结构化存储集群。HBase利用Hadoop HDFS作为其文件存储系统,利用Hadoop的
MapReduce来处理HBase中的海量数据,利用Zookeeper作为协调工具。
1.HBase(NoSQL)的数据模型
1.1 表(table),是存储管理数据的。
1.2 行键(row key),类似于MySQL中的主键。
行键是HBase表天然自带的。
1.3 列族(column family),列的集合。
HBase中列族是需要在定义表时指定的,列是在插入记录时动态增加的。
HBase表中的数据,每个列族单独一个文件。
1.4 时间戳(timestamp),列(也称作标签、修饰符)的一个属性。
行键和列确定的单元格,可以存储多个数据,每个数据含有时间戳属性,数据具有版本特性。
如果不指定时间戳或者版本,默认取最新的数据。
1.5 存储的数据都是字节数组。
1.6 表中的数据是按照行键的顺序物理存储的。
2.HBase的物理模型
2.1 HBase是适合海量数据(如20PB)的秒级简单查询的数据库。
2.2 HBase表中的记录,按照行键进行拆分, 拆分成一个个的region。
许多个region存储在region server(单独的物理机器)中的。
这样,对表的操作转化为对多台region server的并行查询。
3.HBase的体系结构
3.1 HBase是主从式结构,HMaster、HRegionServer
架构体系
HBase中有两张特殊的Table,-ROOT-和.META.
.META.:记录了用户表的Region信息,.META.可以有多个regoin
-ROOT-:记录了.META.表的Region信息,-ROOT-只有一个region
Zookeeper中记录了-ROOT-表的location
用户请求时会首先查询-ROOT-,然后找到.META.,再定位到用户表的region。
Client 包含访问hbase 的接口,client 维护着一些cache 来加快对hbase 的访问,比如regione 的位置信息
Zookeeper
保证任何时候,集群中只有一个running master
存贮所有Region 的寻址入口
实时监控Region Server 的状态,将Region server 的上线和下线信息,实时通知给Master
存储Hbase 的schema,包括有哪些table,每个table 有哪些column family
Master 可以启动多个HMaster,通过Zookeeper的Master Election机制保证总有一个Master运行
为Region server 分配region
负责region server 的负载均衡
发现失效的region server 并重新分配其上的region
4.HBase的伪分布
4.1 在hadoop0上解压缩、重命名、设置环境变量HBASE_HOME
4.2 修改文件$HBASE_HOME/conf/hbase-env.sh,修改内容如下
export JAVA_HOME=/usr/local/jdk
export HBASE_MANAGES_ZK=true
4.3 修改文件hbase-site.xml,修改内容如下
<property>
<name>hbase.rootdir</name>
<value>hdfs://hadoop0:9000/hbase</value>
</property>
<property>
<name>hbase.cluster.distributed</name>
<value>true</value>
</property>
<property>
<name>hbase.zookeeper.quorum</name>
<value>hadoop0</value>
</property>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
4.4 (可选)修改regionservers,具体操作见ppt
4.5 启动,执行命令start-hbase.sh
注意:启动hbase之前要先启动hadoop,确保hadoop可写入数据。
相关文章推荐
- 三、伪分布环境下安装hbase
- hbase0.96伪分布模式安装
- hbase三种安装模式,本地安装、伪分布安装、集群模式安装
- HBase的伪分布模式安装
- hbase完全分布安装
- Hbase 伪分布安装及Hbase shell操作
- HBase伪分布安装
- (5)HBase 1.2.6伪分布安装
- 爬虫知识1:了解爬虫知识体系、安装Scrapy等模块
- [原创]全分布模式下 HBase 安装
- hbase伪分布安装
- hadoop学习笔记之-hbase完全分布模式安装-5
- Hadoop学习笔记(十三)---Hbase的伪分布安装及配置
- HDFS之HBase伪分布安装
- hadoop+hbase+zookeeper完全分布安装(1)
- HBase官方指南(译.二.Hbase伪分布本地安装)
- Hadoop-2.6.0伪分布--安装配置hbase-0.99
- Hbase-0.98.0全分布集群安装于配置(详细版参考自官方文档)
- 全分布模式安装和使用hbase
- HBASE的伪分布安装(简单)