您的位置：首页 > 大数据

spark处理大数据的几个实例介绍

2016-01-27 20:32 246 查看

在集群中跑应用，而不是在shell中

感受写spark应用的过程

整个过程为：

1、案例分析：要用哪些spark的RDD的API

2、编程实现: 用到scala

3、提交到集群执行：如何提交到集群，文件是否先传到HDFS上

4、监控执行结果：通过web可以看到

介绍了四个案例：

比如统计1千万个人的平均身高，如果用其他语言，估计要好几小时，因为磁盘读写，要反复计算

用了spark之后，分布式了，而且还大量使用了内存的资源

学到了一个完整的分布式系统的程序是怎么在集群上跑的

还有对Spark job 的执行流程简介

参考链接：
https://www.ibm.com/developerworks/cn/opensource/os-cn-spark-practice1/
有四个使用spark的具体实例

我现在的问题：如何放到集群上跑？本地是没问题的

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签： spark 实例

相关文章推荐

新的分享

章节导航