实战hadoop海量数据处理系列:序
2017-06-07 07:36
288 查看
-- 纸上得来终觉浅,绝知此事要躬行
实战hadoop海量数据处理系列:序
都知布道者不易,以写书最难,字字斟酌。本系列大部分是在闲暇时间而作,并是用语音识别辅助记录,多少有瑕疵,但我会持续校正。希望开卷有益,let us go!大纲
先讲述我我和范老师书的缘分,第二是对代码的思考,
第三是自己的进度,
第四是对进度进行展望。
1 前记:和范老师书的缘分
得知该书第二版新加入Yarn,Base,并升级到cdh5,我毫不犹豫购买了纸书。纸书的感觉是电子书无法比拟的。虽理论渐渐深入,工作项目以spark为主,hadoop这一经典系统的知识一直悬浮在半空,这一现象到2017年5月底出现改观。
工程解压后,我开始试着用eclipse去运行,但是0517那天的版本在我电脑上还不能好好的编译。花了半天,把python相关问题给解决了。发现项目还有这些要注意的:
项目没有提供数据库sql
项目没有提供数据源
当时有点懊恼,因为好不容易看到了windows模拟端的python输出,正准备往centos上尝试真机运行啦。
书中实战项目是真实项目,确保可以运行的
书中每一处代码都是附件可以找到的
鉴于数据源的保密等原因,不能照顾到读者
本书的出版其实就是想把最新的hadoop思想和实践感受传递给读者,所以不免瑕疵。
2 写作动机
知道出书不易,我觉得我可以做些什么,为什么不考虑自己去完善这个代码啦。相关解决方法有:数据库虽然没有sql的建表,但是原书提供了数据仓库的细节,我可以根据实体联系图(ER图)构建出表
数据源问题,由于是教学项目,完全可以随机模拟生成数据
关系数据库原书部分使用了oracle, 没有使用复杂的sql逻辑,完全可以迁移到mysql
当然,为了让读者更易上手,还有一个更美好的方案,将刚刚我提到的数据库,模拟数据源等打包放到虚拟机,以后读者直接就可以上手了。
3 进度
截至0606,完成了:数据源的导入,sqoop
hive执行命令的工具
从进度栏上来说,应该过了20%,至少让读者能够感受整个数据处理的初期过程。
做到这一点还是比较兴奋,相关结果已经放到github,相关地址是https://github.com/titer1/Play_HadoopFelix,
大家有兴趣可以下载查看,更欢迎相关的建议,pull request更欢迎喔。
4 计划
打通全部的流程,我还需要做到以下几点:利用ER工具(mysql workbench)还原出原数据库
利用存储过程生成指定数目的数据
Centos 实体机验证数据导入,hive执行
当做到以上几点,万里长征第一步应该完成了。当数据已经在hive里面躺着了,第二步就是就是数据仓库的相关技术:数据处理/数据挖掘等。
期待中,看大象开始奔走了
![](https://upload.wikimedia.org/wikipedia/commons/9/95/Elephant_Walking_animated.gif)
相关文章推荐
- 实战hadoop海量数据处理系列04预热篇:窗函数row_number 从理论到实践
- 实战hadoop海量数据处理系列05 : 实现点击流日志的数据清洗模块
- 实战hadoop海量数据处理系列03 :数据仓库的设计
- 实战hadoop海量数据处理系列02 番外篇: 在linux上使用hql执行工具 | hive排错记录
- 实战hadoop海量数据处理系列 01:数据导入篇
- 实战hadoop海量数据处理系列02: hql执行工具
- 云星数据---Apache Flink实战系列(精品版)】:Flink流处理API详解与编程实战009-DataStream与MySql自定义sink和source(Java版)001
- 从Hadoop框架与MapReduce模式中谈海量数据处理(淘宝技术架构)
- Spark入门实战系列 (做个标签,转载基于 ELK Stack 和 Spark Streaming 的日志处理平台设计与实现)
- 海量数据处理系列——C语言下实现bitmap算法
- 从Hadoop框架与MapReduce模式中谈海量数据处理(含淘宝技术架构)
- 从hadoop框架与MapReduce模式中谈海量数据处理
- PLSQL_海量数据处理系列6_初始化参数
- 从Hadoop框架与MapReduce模式中谈海量数据处理(含淘宝技术架构)
- 从Hadoop框架与MapReduce模式中谈海量数据处理(含淘宝技术架构)
- 从Hadoop框架与MapReduce模式中谈海量数据处理(含淘宝技术架构)
- Python处理海量数据的实战研究
- [算法系列之十八]海量数据处理之BitMap
- 从hadoop框架与MapReduce模式中谈海量数据处理
- 从Hadoop框架与MapReduce模式中谈海量数据处理(含淘宝技术架构)