您的位置:首页 > 运维架构

菜鸟学hadoop(01)

2016-07-30 11:44 211 查看
刚毕业,原本以为自己会去做安卓之类的开发但是造物弄人碰到了我的老大——峰哥 结果就被这位老司机带到了大数据的这条路 不过还是得感谢他为我开启了一起崭新的未来。

首先我要说的是我的java基础不是特别好,多线程,socket,反射,还有各种大大小小的框架我都很少使用,有一些甚至只有模糊的印象,另外我的linux基础。。。。。差不多可以被任何人吊着起来打了。但这并不妨碍我学习hadoop这个高大上的拉风技术,从2016年1月份到4月份读了10来本大数据相关的书,比如(三只手)维克托的《大数据时代》,安德鲁的《免费》让我充分领略了大数据技术带来的不可思议的改变,让我深深的陷入其中。但是正如维克托在接受采访时所说,真正能将大数据发扬光大的国家必定是中国,因为我们有着快15亿人的庞大基数。

看春晚大家应该都领略到了这些,上亿人拿着手机在屏幕前疯狂的摇动着,瞬间就可以产生上亿条数据这在别的国家想都不敢想。作为科技方面的领头羊——美国 虽然他们的科技很发达,互联网人数也很高。但是他们被牢牢的囚禁在一条名叫公民隐私法的法律之下,众所周知美国人很在乎自己的隐私。任何未经允许的商家如果使用客户的隐私轻则几百万大洋的赔偿,重则破产重组,所以在美国尽管企业家们渴望使用大数据这个火爆的技术,但是也只能局限于一些公共的产业方面,所以也正如很多书上介绍的那样苹果,谷歌,雅虎这些互联网在使用这个技术,更多的企业则被牢牢的限制在法律之外,但是在我国却有着本质的区别。15亿人,超过7亿人接入互联网,90%以上都是移动端,隐私法的法律条文等等这些先天的条件无不将中国推向hadoop的怀抱,所以我们有必要了解和学习这门技术。站在时代的浪头,才会先人一步发现数据之下带给我们的惊喜。

好了,说了这么多题外话你可以当作我忽悠你一起来学习hadoop的借口。先来说说hadoop的名称,第一次看hadoop封面上的大象图案一脸蒙逼,大象不是elephant吗?难道。。。后来才知道原来是hadoop之父Doug Cutting的小儿子对自己的玩具小象的称呼这个故事充分说明了他很爱的他的儿子。他和儿子的关系很好,好吧等有时间再来扯这浓浓的父子情。先来大概介绍下hadoop。hadoop主要是由下面几个子项目组成的。

(1)hadoop common :支撑hadoop的公共部分,包括文件系统,远程过程调用(RPC)和序列化函数库等。

(2)HDFS :提高高吞吐量的可靠分布式文件系统,是GFS(谷歌的文件系统)的开源实现。

(3)MapReduce:大型分布式数据处理模型,是Google MapReduce的开源实现。

当然还有一些与hadoop直接相关的开源项目。

(1)Hbase:支持结构化数据存储的分布式数据库,是BigTable(Google的数据库)的开源实现。

(2)Hive :提供数据摘要和查询功能的数据仓库。

(3)Pig:实在MapReduce上构建的一种高级的数据流语言,可以简化MapReduce任务的开发。

(4)Cassandra:由Facebook支持的开原告可扩展分布式数据库。是Amazon底层架构Dynamo的全分布和Google BigTable的列式数据存储模型有机的结合。

(5)Chukwa:一个用来管理大型分布式系统的数据采集系统。

(6)ZooKeeper:用来解决分布式系统一致性问题,是Chubby的开源实现。(大家莫慌,上面提到的其实我也只知道个别的名称-。-)
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: