您的位置：首页 > 运维架构

实战hadoop海量数据处理系列:序

2017-06-07 07:36 288 查看

-- 纸上得来终觉浅，绝知此事要躬行

实战hadoop海量数据处理系列:序

都知布道者不易，以写书最难，字字斟酌。本系列大部分是在闲暇时间而作，并是用语音识别辅助记录，多少有瑕疵，但我会持续校正。希望开卷有益，let us go！

大纲

先讲述我我和范老师书的缘分，

第二是对代码的思考，

第三是自己的进度，

第四是对进度进行展望。

1 前记：和范老师书的缘分

得知该书第二版新加入Yarn,Base,并升级到cdh5，我毫不犹豫购买了纸书。纸书的感觉是电子书无法比拟的。

虽理论渐渐深入，工作项目以spark为主，hadoop这一经典系统的知识一直悬浮在半空，这一现象到2017年5月底出现改观。

工程解压后，我开始试着用eclipse去运行，但是0517那天的版本在我电脑上还不能好好的编译。花了半天，把python相关问题给解决了。发现项目还有这些要注意的：

项目没有提供数据库sql

项目没有提供数据源

当时有点懊恼，因为好不容易看到了windows模拟端的python输出，正准备往centos上尝试真机运行啦。

书中实战项目是真实项目，确保可以运行的

书中每一处代码都是附件可以找到的

鉴于数据源的保密等原因，不能照顾到读者

本书的出版其实就是想把最新的hadoop思想和实践感受传递给读者，所以不免瑕疵。

2 写作动机

知道出书不易，我觉得我可以做些什么，为什么不考虑自己去完善这个代码啦。相关解决方法有：

数据库虽然没有sql的建表，但是原书提供了数据仓库的细节，我可以根据实体联系图（ER图）构建出表

数据源问题，由于是教学项目，完全可以随机模拟生成数据

关系数据库原书部分使用了oracle, 没有使用复杂的sql逻辑，完全可以迁移到mysql

当然，为了让读者更易上手，还有一个更美好的方案，将刚刚我提到的数据库，模拟数据源等打包放到虚拟机，以后读者直接就可以上手了。

3 进度

截至0606，完成了：

数据源的导入，sqoop

hive执行命令的工具

从进度栏上来说，应该过了20%，至少让读者能够感受整个数据处理的初期过程。

做到这一点还是比较兴奋，相关结果已经放到github,相关地址是https://github.com/titer1/Play_HadoopFelix，

大家有兴趣可以下载查看，更欢迎相关的建议，pull request更欢迎喔。

4 计划

打通全部的流程，我还需要做到以下几点:

利用ER工具（mysql workbench）还原出原数据库

利用存储过程生成指定数目的数据

Centos 实体机验证数据导入，hive执行

当做到以上几点，万里长征第一步应该完成了。当数据已经在hive里面躺着了，第二步就是就是数据仓库的相关技术：数据处理/数据挖掘等。

期待中，看大象开始奔走了

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签： hadoop 海量数据处理 hadoop海量数据

相关文章推荐

新的分享

章节导航