您的位置:首页 > 其它

hive小结

2016-07-03 18:11 267 查看

1)hive加载数据

hive加载本地数据和和hdfs数据区别

加载外部表可以为本地文件,加载内部表,要把数据加载到hdfs上

2)hive中索引

索引

deferred 延期的

compact 紧压的

3)hive中数据格式

hive可以自定义文件格式。textfile,sequencefile

数据格式:

avro file orc file

ORC File,它的全名是Optimized Row Columnar(柱行的 (ORC) file,其实就是对RCFile做了一些优化。据官方文档介绍,这种文件格式可以提供一种高效的方法来存储Hive数据。

4)hive查看编译的sql语句

hiveql与sql区别

explain select * from tb1 where num = 333

5)hive中求分组topk

hive 中求分组中的topk

select calling_nbr, called_nbr,count,

ROW_NUMBER() over (PARITITION by calling_b=nbr order by count desc) rn from test where rm < 100;

其中PARTITION BY calling_nbr 可选,若加上则表示窗口统计,

否则则是全局统计。

6) udf udaf udtf

udf

collection function size(Map K,V

type conversion funcions cast(‘1’ as BIGINT)

Data function year(string date)year(“1970-01-01 00:00:00”) = 1970, year(“1970-01-01”) = 1970.

String function trim(string A) trim(’ foobar ‘) results in ‘foobar’

aggregate function(udaf)

count(*) ,sum(col),avg(col)

table -generating function (udtf)

将一个输入行,转换成多行

7)hive中事务

ACID代表数据库事务中的四个特性,

原子性,任何一个数据库操作要么被完整执行,要么完全不被执行、

一致性,一旦应用程序执行了一个操作,操作的结果对于每一个之后的造作都是课件的

隔离性,一个用户的操作不会对其他用户用户产生意料之外的副作用。

持久性,一旦一个操作被完成、这些操作也将被记录下来即时机器或系统

出现故障,也要保证这些记录的完整性。

从hive0.14开始,insert update delete支持

需要配置hive-site.xml

添加hive元数据,初始化三张表

8)hive中确定map数目与reduce数目

hive中设置map数目和reduce数目,

1、map数目,通过设置一个map任务执行文件的大小;直接设置map任务数;对文件大,和任务逻辑复杂的任务,可以增加map数,提高执行效率。

2、reduce数目,hive.exec.reducers.bytes.per.reducer(每个reduce任务处理的数据量,默认为1000^3=1G)

hive.exec.reducers.max(每个任务最大的reduce数,默认为999)

计算reducer数的公式很简单N=min(参数2,总输入数据量/参数1)
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签:  hive