对spark中RDD的理解
2016-01-26 11:35
246 查看
update at 2016.1.25
RDD作者的论文链接
https://www.cs.berkeley.edu/~matei/papers/2012/nsdi_spark.pdf
论文的理解:
spark要解决的问题:
1、有些数据要多次读写,磁盘速度很慢
2、没有交互的界面,不能看到中间结果
适用的应用:
1、机器学习:多个迭代次运算,逼近(优化问题)。==》是不是三维重建中优化也可以用到这个
2、计算结果还要用的:pagerank
解决办法==》数据抽象成RDD+memory-cache
其中提到finer- grained shared memory abstractions ,那么coarse又是什么呢
没看懂RDD是怎么实现的
继续学习
RDD作者的论文链接
https://www.cs.berkeley.edu/~matei/papers/2012/nsdi_spark.pdf
论文的理解:
spark要解决的问题:
1、有些数据要多次读写,磁盘速度很慢
2、没有交互的界面,不能看到中间结果
适用的应用:
1、机器学习:多个迭代次运算,逼近(优化问题)。==》是不是三维重建中优化也可以用到这个
2、计算结果还要用的:pagerank
解决办法==》数据抽象成RDD+memory-cache
其中提到finer- grained shared memory abstractions ,那么coarse又是什么呢
没看懂RDD是怎么实现的
继续学习
相关文章推荐
- Spark RDD API详解(一) Map和Reduce
- 使用spark和spark mllib进行股票预测
- Spark随谈——开发指南(译)
- Spark,一种快速数据分析替代方案
- eclipse 开发 spark Streaming wordCount
- Understanding Spark Caching
- ClassNotFoundException:scala.PreDef$
- Windows 下Spark 快速搭建Spark源码阅读环境
- Spark中将对象序列化存储到hdfs
- Spark初探
- Spark Streaming初探
- Spark本地开发环境搭建
- 搭建hadoop/spark集群环境
- spark内存概述
- Spark Shuffle之Hash Shuffle
- Spark Shuffle之Sort Shuffle
- Spark Shuffle之Tungsten Sort Shuffle
- 编译Spark 1.5.2
- 整合Kafka到Spark Streaming——代码示例和挑战
- Spark 性能相关参数配置详解-任务调度篇