您的位置:首页 > 大数据

【大数据处理架构】0.综述-资料楼

2015-11-25 23:05 489 查看

大数据综述

当我们在谈大数据的时候,我们在谈什么?信息爆炸,“大数据“无疑已经成为了最火的关键词,人人都在谈,但是真正落地或者把整个架构玩儿通的人并不多。

要真正深入这个行业,或者训练成为有经验的从业者(数据分析师/架构师)要清楚多个框架,并且不断跟进和学习

下图展示的Big Data 的一个processing。大数据本身不具任何的价值,能从中提取关键的商业价值(commercial acumen/Intelligence)和决策参考才是关键。



一般大数据分析(Big data anlysis) 分为四个步骤:

1. Query Processing

2.Summary Statistics

3.Exploration

Modeling

准备

放弃百度,投奔google,在官方网站上看原生文档

放弃window环境, 使用Linux系统,环境配置

大数据平台构建

github 开源社区

相关工具(Toollist)

Hadoop

hadoop提供了分布式计算的框架,这个框架下面由许多组件构成(HDFS,分布式文件系统;Yarn,计算调度资源分配;MapReduce 并行计算的编程模型…),共同实现分布式计算。

HDFS

A distributed file system that provides high-throughput access to application data.分布式的文件系统,可以参考Linux的文件系统。

Spark

A fast and general compute engine for Hadoop data. Spark provides a simple and expressive programming model that supports a wide range of applications, including ETL, machine learning, stream processing, and graph computation. Spark 是hadoop的计算引擎,也就是提供了很多计算模型给用户使用,然后分配到hadoop平台上进行分布式计算

Cassandra

多master的数据库(database)

Pig

一种操作hadoop的轻量级脚本语言,最初又雅虎公司推出,不过现在正在走下坡路了。当初雅虎自己慢慢退出pig的维护之后将它开源贡献到开源社区由所有爱好者来维护。

Pig是一种数据流语言,用来快速轻松的处理巨大的数据。

Pig包含两个部分:Pig Interface,Pig Latin。

Pig可以非常方便的处理HDFS和HBase的数据,和Hive一样,Pig可以非常高效的处理其需要做的,通过直接操作Pig查询可以节省大量的劳动和时间。当你想在你的数据上做一些转换,并且不想编写MapReduce jobs就可以用Pig.

hive

data warehouse数据仓库(可以建表,建库,sql查询)

Hive现在适合在离线下进行数据的操作,就是说不适合在挂在真实的生产环境中进行实时的在线查询或操作,因为一个字“慢”。相反

起源于FaceBook,Hive在Hadoop中扮演数据仓库的角色。建立在Hadoop集群的最顶层,对存储在Hadoop群上的数据提供类SQL的接口进行操作。你可以用 HiveQL进行select,join,等等操作。

如果你有数据仓库的需求并且你擅长写SQL并且不想写MapReduce jobs就可以用Hive代替。

HBase

HBase作为面向列的数据库运行在HDFS之上,HDFS缺乏随即读写操作,HBase正是为此而出现。HBase以Google BigTable为蓝本,以键值对的形式存储。项目的目标就是快速在主机内数十亿行数据中定位所需的数据并访问它。

HBase是一个数据库,一个NoSql的数据库,像其他数据库一样提供随即读写功能,Hadoop不能满足实时需要,HBase正可以满足。如果你需要实时访问一些数据,就把它存入HBase。

你可以用Hadoop作为静态数据仓库,HBase作为数据存储,放那些进行一些操作会改变的数据。

Mahout

机器学习+数据挖掘的库

MapRduce

相关语言

大数据研究已经不一朝一夕的事了,语言不能成为研究大数据的限制,但是选定某系语言却能使我们的工作更有效率。

scala

spark就是用scala原生写的,scala作为一种静态语言同时具有函数式语言的特性,写起来很轻便。代码量只有Java的1/10,作为大数据研究的基本功

go

go语言是google2009 的一个项目,开源后受到大家的追捧,在国内许士伟就是早期玩go的专家。go写爬虫等都很高效,值得研究

python

这个语言是程序员必备的语言之一,spark 支持的语言之一

R

2014 Spark加入了sparkR 就可见大数据对R语言的接纳和期待,R也是统计学很重要的语言,能很大程度代替matlab,走向大数据。有很好的前景。

参考资料(reference)

1.在线课程

大数据导论

https://www.coursera.org/learn/intro-to-big-data/home/welcome

几种技术对比:

http://www.linuxidc.com/Linux/2014-03/98978.htm

2.Introduction to Spark Internals http://files.meetup.com/3138542/dev-meetup-dec-2012.pptx

Resilient Distributed Datasets: A Fault-tolerant Abstraction for In-Memory Cluster Computing

https://www.usenix.org/system/files/…/nsdi12-final138.pdf

Lightning-Fast Cluster Computing with Spark and Shark http://www.meetup.com/TriHUG/events/112474102/

Jerry Lead总结的Spark文章,很有价值 https://github.com/JerryLead/SparkInternals/tree/master/markdown

解决spark运行调试问题的四把“尖刀”:

1、Log

包括控制台日志、主从节点日志、HDFS日志等。许多错误可以通过日志,直接对错误类型、错误来源进行准确定位,因此,学会读取和分析Log是解决问题的第一步。

Tuning Spark(内存调优): http://spark.apache.org/docs/1.0.0/tuning.html

Spark Configuration(基本配置): http://spark.apache.org/docs/1.0.0/configuration.html

知名博主:

徽沪一郎:http://www.cnblogs.com/hseagle/category/569175.html

fxjwind:http://www.cnblogs.com/fxjwind/category/518904.html

张包峰:http://blog.csdn.net/zbf8441372/article/category/1556747

高彦杰:http://blog.csdn.net/gaoyanjie55

saisai_shao:http://jerryshao.me/

微博大牛:

hashjoin,Databricks大数据公司创始人之一,UC Berkeley AMPLab:http://weibo.com/hashjoin

Andrew-Xia:http://weibo.com/u/1410938285

CrazyJvm:http://weibo.com/476691290

明风Andy,淘宝技术部,数据挖掘与计算团队负责人:http://weibo.com/mingfengandy

saisai_shao: http://weibo.com/u/2122584747

连城:http://weibo.com/lianchengzju

张包峰:http://weibo.com/pelickzhang

王联辉:http://weibo.com/u/1685831233

徽沪一郎:http://weibo.com/eagleonline

Spark学习资料

Fast Data Processing with Spark,http://pan.baidu.com/s/1bnnJHlP

http://www.csdn.net/article/2015-11-25/2826324?ref=myread

Scala学习资料:

快学Scala,http://pan.baidu.com/s/1gdJzElt

Scala Cookbook,http://pan.baidu.com/s/1jGn5zPc

Scala编程,http://pan.baidu.com/s/1pJ0Szgv

Spark论文:

NSDI-2012,http://pan.baidu.com/s/1jGifNMm

[博士论文]Matei Zaharia,http://pan.baidu.com/s/1nt1C2BR

Spark 源码解读:

http://www.cnblogs.com/hseagle/category/569175.html

TBC
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签:  大数据 架构