第3期Spark纯实战公益大讲坛:通过案例实战掌握Spark内核运行内幕
2015-08-22 12:21
477 查看
第3期Spark纯实战公益大讲坛:通过案例实战掌握Spark内核运行内幕
sc.textFile("hdfs://...").faltMap(_.split("")).map(_,1).reduceByKey(_+_).map(x=>(x._2),x._1)).
sortByKey(false).map(x=>(x._2),x._1)).saveASTextFile(hdfs://...")
深入剖析运行的stage
sc.textFile("hdfs://...").faltMap(_.split("")).map(_,1).reduceByKey(_+_).map(x=>(x._2),x._1)).
sortByKey(false).map(x=>(x._2),x._1)).saveASTextFile(hdfs://...")
1 Driver program (sc)->cluster manager - worker executor
2 block 为128M,大的文件拆分成几个block,block最后的一行记录如分布在前后2个block,前面一个block会多处理一些记录
3 在spark 可视化视图可以查看stage的流程
DT大数据微信公众账号:DT_Spark
DT大数据梦工厂scala的所有视频、PPT和代码在百度云盘的链接地址:http://pan.baidu.com/share/home?uk=4013289088&view=share#category/type=0&qq-pf-to=pcqq.group
sc.textFile("hdfs://...").faltMap(_.split("")).map(_,1).reduceByKey(_+_).map(x=>(x._2),x._1)).
sortByKey(false).map(x=>(x._2),x._1)).saveASTextFile(hdfs://...")
深入剖析运行的stage
sc.textFile("hdfs://...").faltMap(_.split("")).map(_,1).reduceByKey(_+_).map(x=>(x._2),x._1)).
sortByKey(false).map(x=>(x._2),x._1)).saveASTextFile(hdfs://...")
1 Driver program (sc)->cluster manager - worker executor
2 block 为128M,大的文件拆分成几个block,block最后的一行记录如分布在前后2个block,前面一个block会多处理一些记录
3 在spark 可视化视图可以查看stage的流程
DT大数据微信公众账号:DT_Spark
DT大数据梦工厂scala的所有视频、PPT和代码在百度云盘的链接地址:http://pan.baidu.com/share/home?uk=4013289088&view=share#category/type=0&qq-pf-to=pcqq.group
相关文章推荐
- 去掉rhel的注册提示
- HBASE bulkload 加载TSV数据
- http://stormzhang.com/devtools/2014/12/09/android-studio-tutorial3/ 安卓studio 安装教程
- 微信支付公众平台配置
- 栈的应用2——超级计算器(中缀与后缀表达式)C语言
- AsyncTask小案例
- POJ2667 Hotel(线段树区间合并)
- 基于MDK编程STM32程序无法使用,硬件仿真在汇编窗口看到停留在“0x0800XXXX BEAB BKPT 0xAB //进入调试模式”
- Selection使用简介
- 爬虫Larbin解析(一)——Larbin配置与使用
- 2014扬声器的信息中国建筑师大会
- 第 4 章 Android 应用的调试
- pat(B)1009. 说反话(逆迭代器)
- MySQL 主键与索引的联系与区别分析
- 接口隔离原则(ISP)
- 栈的应用1——超级计算器(中缀与后缀表达式)C语言
- jquery实现很酷的网页顶部图标下拉菜单效果
- Excel一项研究指出色彩
- 【LeetCode】264. Ugly Number II
- java获取list集合转换成json数据