Spark 2.0介绍:从RDD API迁移到DataSet API
2016-07-17 15:32
405 查看
文章目录 [hide]
1 RDD迁移到DataSet
1.1 1、加载文件
1.2 2、计算总数
1.3 3、WordCount实例
1.4 4、缓存(Caching)
1.5 5、过滤(Filter)
1.6 6、Map Partitions
1.7 7、reduceByKey
1.8 8、RDD和DataSet互相转换
1.9 9、基于Double的操作
1.10 10、Reduce API
2 完整代码
DataSet API将RDD和DataFrame两者的优点整合起来,DataSet中的许多API模仿了RDD的API,虽然两者的实现很不一样。所以大多数调用RDD API编写的程序可以很容易地迁移到DataSet API中,下面我将简单地展示几个片段来说明如何将RDD编写的程序迁移到DataSet。
RDD
Dataset
RDD
Dataset
RDD
Dataset
RDD
Dataset
RDD
Dataset
RDD
Dataset
RDD
Dataset
RDD
Dataset
将RDD转换成DataFrame需要做一些工作,比如需要指定特定的模式。下面展示如何将RDD[String]转换成DataFrame[String]:
RDD
Dataset
RDD
Dataset
上面的代码片段展示了如何将你之前使用RDD API编写的程序转换成DataSet API编写的程序。虽然这里并没有覆盖所有的RDD API,但是通过上面的介绍,你肯定可以将其他RDD API编写的程序转换成DataSet API编写的程序。
1 RDD迁移到DataSet
1.1 1、加载文件
1.2 2、计算总数
1.3 3、WordCount实例
1.4 4、缓存(Caching)
1.5 5、过滤(Filter)
1.6 6、Map Partitions
1.7 7、reduceByKey
1.8 8、RDD和DataSet互相转换
1.9 9、基于Double的操作
1.10 10、Reduce API
2 完整代码
RDD迁移到DataSet
DataSet API将RDD和DataFrame两者的优点整合起来,DataSet中的许多API模仿了RDD的API,虽然两者的实现很不一样。所以大多数调用RDD API编写的程序可以很容易地迁移到DataSet API中,下面我将简单地展示几个片段来说明如何将RDD编写的程序迁移到DataSet。
1、加载文件
RDD
2、计算总数
RDD
3、WordCount实例
RDD
4、缓存(Caching)
RDD
5、过滤(Filter)
RDD
6、Map Partitions
RDD
7、reduceByKey
RDD
8、RDD和DataSet互相转换
RDD将RDD转换成DataFrame需要做一些工作,比如需要指定特定的模式。下面展示如何将RDD[String]转换成DataFrame[String]:
9、基于Double的操作
RDD
10、Reduce API
RDD
完整代码
相关文章推荐
- iOS 基础动画
- 量化投资策略
- 《编程之法》1.6最长回文子串
- 使用Eclipse这些快捷键,效率提升一倍
- Windows下条件变量实现读写同步
- Android之Activity生命周期浅析(一)
- POJ 3614 Sunscreen 贪心
- PS初始化配置
- percona-toolkit工具包的安装和使用
- Top 10 Core Data Tools and Libraries
- 关于iptables
- Notification
- 趣味100道C语言程序题num five
- 浅谈essay、paper和dissertation的区别
- java补习第三天
- UIImage加载图片的方式以及Images.xcassets对于加载方法的影响
- OpenGL-创建视口
- stsadm.exe
- 面试题选(不断累积经验)
- 冯诺依曼工作方式的基本特点是____