您的位置:首页 > 其它

Spark 2.0介绍:从RDD API迁移到DataSet API

2016-07-17 15:32 405 查看
文章目录 [hide]

1 RDD迁移到DataSet

1.1 1、加载文件

1.2 2、计算总数

1.3 3、WordCount实例

1.4 4、缓存(Caching)

1.5 5、过滤(Filter)

1.6 6、Map Partitions

1.7 7、reduceByKey

1.8 8、RDD和DataSet互相转换

1.9 9、基于Double的操作

1.10 10、Reduce API

2 完整代码


RDD迁移到DataSet

  DataSet API将RDD和DataFrame两者的优点整合起来,DataSet中的许多API模仿了RDD的API,虽然两者的实现很不一样。所以大多数调用RDD API编写的程序可以很容易地迁移到DataSet API中,下面我将简单地展示几个片段来说明如何将RDD编写的程序迁移到DataSet。


1、加载文件

RDD

Dataset


2、计算总数

RDD

Dataset


3、WordCount实例

RDD

Dataset


4、缓存(Caching)

RDD

Dataset


5、过滤(Filter)

RDD

Dataset


6、Map Partitions

RDD

Dataset


7、reduceByKey

RDD

Dataset


8、RDD和DataSet互相转换

RDD

Dataset

将RDD转换成DataFrame需要做一些工作,比如需要指定特定的模式。下面展示如何将RDD[String]转换成DataFrame[String]:


9、基于Double的操作

RDD

Dataset


10、Reduce API

RDD

Dataset

上面的代码片段展示了如何将你之前使用RDD API编写的程序转换成DataSet API编写的程序。虽然这里并没有覆盖所有的RDD API,但是通过上面的介绍,你肯定可以将其他RDD API编写的程序转换成DataSet API编写的程序。


完整代码

内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: