您的位置:首页 > 大数据

spark处理大数据的几个实例介绍

2016-01-27 20:32 246 查看
在集群中跑应用,而不是在shell中

感受写spark应用的过程

整个过程为:

1、案例分析:要用哪些spark的RDD的API

2、编程实现: 用到scala

3、提交到集群执行:如何提交到集群,文件是否先传到HDFS上

4、监控执行结果: 通过web可以看到

介绍了四个案例:

比如 统计1千万个人的平均身高,如果用其他语言,估计要好几小时,因为磁盘读写,要反复计算

用了spark之后,分布式了,而且还大量使用了内存的资源

学到了一个完整的分布式系统的程序是怎么在集群上跑的

还有对Spark job 的执行流程简介

参考链接:
https://www.ibm.com/developerworks/cn/opensource/os-cn-spark-practice1/
有四个使用spark的具体实例

我现在的问题:如何放到集群上跑?本地是没问题的
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签:  spark 实例