DataFrame和RDD的区别
2017-04-10 14:14
211 查看
上图直观地体现了DataFrame和RDD的区别。左侧的RDD[Person]虽然以Person为类型参数,但Spark框架本身不了解Person类的内部结构。而右侧的DataFrame却提供了详细的结构信息,使得Spark SQL可以清楚地知道该数据集中包含哪些列,每列的名称和类型各是什么。DataFrame多了数据的结构信息,即schema。RDD是分布式的Java对象的集合。DataFrame是分布式的Row对象的集合。DataFrame除了提供了比RDD更丰富的算子以外,更重要的特点是提升执行效率、减少数据读取以及执行计划的优化,比如filter下推、裁剪等。
相关文章推荐
- RDD,DataFrame与DataSet区别
- DataFrame与RDD的区别
- RDD,DataFrame 和 Dataset区别以及各自用途
- BigData进阶--细说RDD,DataFrame,Dataset的区别
- RDD,DataFrame与DataSet区别
- rdd,dataframe,dataset之间的区别
- DataFrame、RDD、DataSet的区别
- DataFrame与RDD的区别
- 谈谈RDD、DataFrame、Dataset的区别和各自的优势
- Spark RDD、DataFrame、DataSet区别和联系
- RDD、DataFrame、Dataset的区别和各自的优势
- Spark机器学习第4课及第5课:深入理解RDD、DataFrame、DataSet、Structured Streaming
- 将任意Java对象RDD转换成DataFrame
- RDD、DataFrame和DataSet的区别
- 转】RDD与DataFrame的转换
- DataFrame转化成RDD-[2]schema法
- spark-DataFrame之RDD和DataFrame之间的转换
- RDD、DataFrame和Dataset的区别
- RDD、DataFrame和DataSet的区别
- RDD与DataFrame的转换