Hadoop和Hive的数据处理流程
2012-07-25 20:39
405 查看
需求
场景:统计每日用户登陆总数每分钟的原始日志内容如下:
http://www.blue.com/uid=xxxxxx&ip=xxxxxx
假设只有两个字段,uid和ip,其中uid是用户的uid,是用户的唯一标识,ip是用户的登陆ip,每日的记录行数是10亿,要统计出一天用户登陆的总数。
处理流程
建表
那么我们首先要在hive里建表,建表语句如下:CREATE TABLE login ( uid STRING, ip STRING ) PARTITIONED BY (dt STRING) ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' STORED AS TEXTFILE;
其实表名是login,字段之间以,隔开,存储是TEXT,其次还以dt这个字段作为分区。
创建成功之后,会看到hdfs上创建了/user/hive/warehouse/login这个目录。
格式化原始日志
将每天的每分钟的原始日志,转换成以下文件格式123,17.6.2.6 112,11.3.6.2 ………..
根据文件大小,合并文件,例如合并为24个文件。
入库
格式完毕,就可以把数据入库到hive了,假设今天是执行命令LOAD DATA INPATH '/data/login/20120713/*' OVERWRITE INTO TABLE login PARTITION (dt='20120713');
执行成功会,转换过的文件会上传到hdfs的/user/hive/warehouse/login/dt=20120713这个目录里。
分析
在hive执行以下语句select count(distinct uid) from login where dt=’ 20120713’;
使用dt这个分区条件查询,就可以避免hive去查询其他分区的文件,减少IO操作,这个是hive分区很重要的特性,也是以天为单位,作为login表分区的重要意义。
执行完毕后,就可以在命令里出现结果,一般通过管道执行hive shell命令,读取管道的内容,把结果入库到mysql里就完成了分析了。
相关文章推荐
- Hadoop和Hive的数据处理流程
- hadoop和Hive的数据处理流程
- Hadoop数据处理流程
- 参加Hive和Pig(两个hadoop数据查询、处理工具)培训的一些体会
- Hadoop对于数据的离线处理流程及实现Top N 查询
- Hive数据分析——Spark是一种基于rdd(弹性数据集)的内存分布式并行处理框架,比于Hadoop将大量的中间结果写入HDFS,Spark避免了中间结果的持久化
- hadoop源码解析之hdfs写数据全流程分析---客户端处理
- [完]基于Hadoop的数据仓库Hive 基础知识
- hive (基于hadoop的数据仓库)
- 一文教你看懂大数据的技术生态圈:Hadoop,hive,spark
- Hadoop二次排序及MapReduce处理流程实例详解
- 开源力量公开课第二十四期 - 为何Hadoop是分布式大数据处理的未来&如何掌握Hadoop?
- Avro技术应用_3. 利用 Hive 表处理 Avro 数据
- Hadoop系列之二:大数据、大数据处理模型及MapReduce
- hadoop & hive任务优化之数据详情预知
- Hive数据导入预处理-分隔符处理
- libnids-1.21 中 IP 分片重组分析 之数据结构与处理流程
- Thinking in BigDate(八)大数据Hadoop核心架构HDFS+MapReduce+Hbase+Hive内部机理详解
- Hadoop源码分析24 JobTracker启动和心跳处理流程
- 银联卡QPBOC处理流程及数据分析