您的位置：首页 > 大数据

【大数据处理架构】0.综述-资料楼

2015-11-25 23:05 489 查看

大数据综述

当我们在谈大数据的时候，我们在谈什么？信息爆炸，“大数据“无疑已经成为了最火的关键词，人人都在谈，但是真正落地或者把整个架构玩儿通的人并不多。

要真正深入这个行业，或者训练成为有经验的从业者（数据分析师/架构师）要清楚多个框架，并且不断跟进和学习

下图展示的Big Data 的一个processing。大数据本身不具任何的价值，能从中提取关键的商业价值（commercial acumen/Intelligence）和决策参考才是关键。

一般大数据分析（Big data anlysis）分为四个步骤：

1. Query Processing

2.Summary Statistics

3.Exploration

Modeling

准备

放弃百度，投奔google，在官方网站上看原生文档

放弃window环境, 使用Linux系统，环境配置

大数据平台构建

github 开源社区

参考资料(reference)

1.在线课程

大数据导论

https://www.coursera.org/learn/intro-to-big-data/home/welcome

几种技术对比：

http://www.linuxidc.com/Linux/2014-03/98978.htm

2.Introduction to Spark Internals http://files.meetup.com/3138542/dev-meetup-dec-2012.pptx

Resilient Distributed Datasets: A Fault-tolerant Abstraction for In-Memory Cluster Computing

https://www.usenix.org/system/files/…/nsdi12-final138.pdf

Lightning-Fast Cluster Computing with Spark and Shark http://www.meetup.com/TriHUG/events/112474102/

Jerry Lead总结的Spark文章，很有价值 https://github.com/JerryLead/SparkInternals/tree/master/markdown

解决spark运行调试问题的四把“尖刀”：

1、Log

包括控制台日志、主从节点日志、HDFS日志等。许多错误可以通过日志，直接对错误类型、错误来源进行准确定位，因此，学会读取和分析Log是解决问题的第一步。

Tuning Spark(内存调优): http://spark.apache.org/docs/1.0.0/tuning.html

Spark Configuration（基本配置）: http://spark.apache.org/docs/1.0.0/configuration.html

知名博主：

徽沪一郎：http://www.cnblogs.com/hseagle/category/569175.html

fxjwind：http://www.cnblogs.com/fxjwind/category/518904.html

张包峰：http://blog.csdn.net/zbf8441372/article/category/1556747

高彦杰：http://blog.csdn.net/gaoyanjie55

saisai_shao：http://jerryshao.me/

微博大牛：

hashjoin，Databricks大数据公司创始人之一，UC Berkeley AMPLab：http://weibo.com/hashjoin

Andrew-Xia：http://weibo.com/u/1410938285

CrazyJvm：http://weibo.com/476691290

明风Andy，淘宝技术部，数据挖掘与计算团队负责人：http://weibo.com/mingfengandy

saisai_shao: http://weibo.com/u/2122584747

连城：http://weibo.com/lianchengzju

张包峰：http://weibo.com/pelickzhang

王联辉:http://weibo.com/u/1685831233

徽沪一郎：http://weibo.com/eagleonline

Spark学习资料

Fast Data Processing with Spark，http://pan.baidu.com/s/1bnnJHlP

http://www.csdn.net/article/2015-11-25/2826324?ref=myread

Scala学习资料：

快学Scala，http://pan.baidu.com/s/1gdJzElt

Scala Cookbook，http://pan.baidu.com/s/1jGn5zPc

Scala编程，http://pan.baidu.com/s/1pJ0Szgv

Spark论文：

NSDI-2012，http://pan.baidu.com/s/1jGifNMm

[博士论文]Matei Zaharia，http://pan.baidu.com/s/1nt1C2BR

Spark 源码解读：

http://www.cnblogs.com/hseagle/category/569175.html

TBC

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签： 大数据架构

相关文章推荐

新的分享

章节导航

【大数据处理架构】0.综述-资料楼

大数据综述

准备

相关工具（Toollist）

Hadoop

HDFS

Spark

Cassandra

Pig

hive

HBase

Mahout

MapRduce

相关语言

参考资料(reference)