大数据企业学习篇03_1------hive 初识
2017-12-11 20:20
211 查看
一、hive是什么?
<1>hive是基于Hadoop的一个数据仓库工具,可以将结构化数据映射成一张表,并提供类SQL查询查询功能。注意:基于Hadoop的一个数据仓库工具?
*使用HDFS存储
*使用MapReduce计算
使用HQL作为查询接口***
<2>本质: 将HQL转化为MapReduce程序
<3>优点:
*灵活性和扩展性比较好:支持UDF,自定义格式等
*适合离线数据处理
二、hive架构
<1>Hive 在生态圈中的位置<2>Hive架构
1.client:cli、jdbc、webUI访问hive,查询发送给driver
2.driver对SQL进行解析,并将元数据存在Metastore
3.driver对SQL进行编译,生成逻辑执行计划,并优化
4.driver执行器将逻辑执行计划转化成可以运行的物理计划。对hive来说,就是MR/TEZ/Spark
5.使用HDFS存储,使用MapReduce进行计算
三、hive常用属性配置
<1>Hive数据仓库位置配置default
/user/hive/warehouse
注意事项
* 在仓库目录下,没有对默认的数据库default创建文件夹
* 如果某张表属于default数据库,直接在数据仓库目录下创建一个文件夹
hive.metastore.warehouse.dir
/user/hive/warehouse
注意: 需要修改文件权限
HADOOP_HOME/bin/hadoop fs -mkdir /tmp
HADOOP_HOME/bin/hadoop fs -mkdir /user/hive/warehouse
HADOOP_HOME/bin/hadoop fs -chmod g+w /tmp
HADOOP_HOME/bin/hadoop fs -chmod g+w /user/hive/warehouse
<2>Hive运行日志信息位置
HIVEHOME/conf/hive−log4j.propertieshive.log.dir=/soft/hive/logshive.log.file=hive.log<3>指定hive运行时显示的log日志的级别HIVE_HOME/conf/hive-log4j.properties
hive.root.logger=INFO,DRFA
<4>在cli命令行上显示当前数据库,以及查询表的行头信息
$HIVE_HOME/conf/hive-site.xml
<property> <name>hive.cli.print.header</name> <value>true</value> <description>Whether to print the names of the columns in query output.</description> </property> <property> <name>hive.cli.print.current.db</name> <value>true</value> <description>Whether to include the current database in the Hive prompt.</description> </property>
<5>在启动hive时设置配置属性信息
$ bin/hive –hiveconf
hive (db_hive)> set system a53a :user.name ; system:user.name=xiaojiangshi hive (db_hive)> set system:user.name=xiaojiangshi ;
**注意:**此种方式,设置属性的值,仅仅在当前会话session生效
四、hive常用操作
<1>hive -ehive -e "select * from db_hive.student ;"
<2>hive -f
$ touch hivef.sql select * from db_hive.student ; $ bin/hive -f /home/master/hivef.sql $ bin/hive -f /home/master/hivef.sql > res.txt
<3>hive -i
与用户udf相互使用
<4>在hive cli命令窗口中如何查看hdfs文件系统
hive > dfs -ls / ;
<5>在hive cli命令窗口中如何查看本地文件系统
hive > !ls /home/master ;
相关文章推荐
- 大数据企业学习篇03_2-----hive 深入
- 大数据企业学习篇03_3------hive 高级
- 大数据企业学习篇05----flume初识
- 大数据Hive的操作_03_02
- 初识Hive:3张图了解Hive的数据类型、架构图!
- hadoop的数据仓库--Hive初识入门
- 大数据企业学习篇02_3-------hadoop高级
- 大数据企业学习篇01之---Linux的那些事
- 大数据Hive的简介和安装_03_01
- 大数据Hive的案例、参数、动态分区、分桶、视图、索引、运行方式、权限管理、Hive的优化_03_03
- Hive编程指南03---Hive数据表
- hive(03)、数据仓库Hive Web UI的配置使用
- 03分布式数据仓库 HIVE -- 数据的相关操作
- 03-Hive数据加载的几种方式
- 大数据企业学习篇04-----Sqoop浅析
- 大数据企业学习篇06----Oozie详解
- 初识Hive:3张图了解Hive的数据类型、架构图!
- [Hadoop大数据]——Hive初识
- 大数据企业学习篇02_1------hadoop初识
- 大数据企业学习篇02_2------hadoop深入