您的位置:首页 > 产品设计 > UI/UE

HDFS日志json转存成parquet方案

2017-08-15 16:01 1416 查看
收集的业务数据为json格式,准备利用parquet 格式重新存储到hive表,以节约空间并方便后续通过spark 或 hive 进行分析查询。

(示例代码是用python)

具体步骤是:

1. 用spark读取json数据后,得到一个dataframe

path = '/xx/xxx/xxx.json'
df = sqlContext.read.json(path)


2. dataframe 经过filter 、select 等操作再以parquet格式写入hdfs指定路径

df = df.filter(‘xxx’).select(‘xxx’)

3. 目录是按天分区,类似 /parquet/xxxxxx/dt=2017-06-06 这样

df.write.parquet(“/parquet/xxxxxx/dt=2017-06-06”,”overwrite”)

4. 建立对应hive表

CREATE  TABLE xxxxxx(
`xx` string,
`xxx` bigint,
`xxxxx` string
... ...
...
)
partitioned by (dt string )
STORED as PARQUET
LOCATION '/parquet/xxxxxx';


5.这样建立完以后,hive还需要执行一步数据加载,才能查到数据

load data  inpath '/parquet/xxxxxx/dt=2017-06-06' into table xxxxxx partition(dt='2017-06-06')

或者

alter table xxxxxx add partition(dt='2017-06-06') location '/parquet/xxxxxx/dt=2017-06-06';


load 和 alter 的主要区别是:

load 会创建分区目录,并移动数据到分区下,alter 的方式不会创建分区目录,也不会移动数据。

个人场景alter 方式添加分区更适合。

把json 存储为parquet,不但可以节省50%左右的存储空间,更方便后续工作中的数据查询,并且查询效率比文本方式更高。

如果有更好的方式,欢迎各位大神留言讨论。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: