spark_3:spark的基础
2016-02-21 16:56
495 查看
RDD
可被切分由一个函数计算每一个分片
对其他的RDD依赖
可选:key-value的rdd是根据hash来分区的,类似于partitioner接口
RDD计算模式
Iterative AlgorithmsRelational Queries
MapRdecue
Streaming
RDD的四个核心方法
getPartitions: 返回一系列partitions集合getDependencies:表达RDD之间的依赖关系
compute:针对每个partition计算
getPreferredLocation:寻找partions的位置
可选的分区策略,默认分区是HashPartitioner
spark计算代码
生成RDDval rdd=sc.parallelize(list(1,2,3,4,5))
filter
val filterRDD=mappedRDD.filter(_ > 4) filterRDD.collect
cache
*count
val vordcount=rdd.flatMap(_.split(' ')).map(_,1).reduceByKey(_+_) wordcount.saveAsTextFile('/data/test')
sort
val wc=rdd.flatmap(_.split('')).map(_,1).reduceByKey(_+_).map(x=>(x._2,x._1)).sortByKey().map(x=>(x._2,x._1))
union
groupByKey
RDD计算模型
/article/1371697.html创建RDD对象,
DAG调度器创建执行计划,
Task调度器分配任务并调度Worker开始运行。
Driver
RDD依赖分析,生成RDD
生成DAG,将job划分为不同的stage(宽窄依赖)
stage生成task,发送到Executor
相关文章推荐
- 高精度模板总结(string 实现加、减、乘、除)常用版
- JSP内置对象
- Windows命令行视频教程-01-简介命令提示符
- 点击某一个cell中的button,确定这个button所在的行(找superview)
- g++编译时默认支持C++11的几个配置小方法
- android 网络框架性能优化分析
- CodeForces512C-Pluses everywhere-模拟/数学/排列组合模板
- c++的坚持
- Angular JS中scope的作用域
- 树莓派 安装 系统 于配置
- 自己写配置文件
- Binary Tree Right Side View
- 将一句话中单词进行倒置,标点符号不倒置
- Swift实现IOS界面的跳转
- 利用AVPlayer播放iOS沙盒中的视频
- 被嘲笑没有智商的题
- 1. redis简介
- HNIO 2013 bzoj 3139 比赛
- 官方开发文档翻译-Service
- [BZOJ2002] [Hnoi2010]Bounce 弹飞绵羊