您的位置：首页 > 大数据

大数据Spark “蘑菇云”行动补充内容第66课：即将成为Spark未来的Spark SQL

2016-10-26 20:53 495 查看

大数据Spark “蘑菇云”行动补充内容第66课：即将成为Spark未来的Spark SQL

1，与直接基于RDD编程，写Spark SQL代码更少、编写更快、更容易修改和理解；

2，相比于直接进行RDD编程而言，Spark SQL会自动的进行性能优化

3，更有效的使用必要的数据，提高内存的使用价值

所有RDD的API在DataSet中是否都有实现？算子功能级别的基本都有实现

DataSet是一种OO风格的接口

rdd是一条条的record，jvm java 对象，不同的数据来源读取数据困难，合并数据源也不简单.谓词下推弄不了

dtaframe：DataSet[Row]
dataset 为row的方式，合并数据来源比rdd更方便。

dataset：面向oo风格接口，吸收了rdd 的精髓，做类型检查，直接作用在domain对象之上

PageJumpOnce.scala

package com.dt.spak.SparkApps.pageLinks

import org.apache.spark.SparkConf

import org.apache.spark.SparkContext

object PageJumpOnce {

def main(args: Array[String]): Unit = {

    val sparkConf = new SparkConf().setAppName("PageJumpOnce")

      .setMaster("spark://192.168.189.1:7077").setJars(List(

        // .setMaster("local[5]").setJars(List(

        "/usr/local/spark-1.6.1-bin-hadoop2.6/lib/mysql-connector-java-5.1.13-bin.jar",

        "/usr/local/IMF_testdata/PageJumpOnce.jar"))

    val sc = new SparkContext(sparkConf)

    val data = PageUtils.getData(sc)

    val resolvedTask = PageUtils.parseArgsFromUser(args)

    val aggregated = PageUtils.aggerateOnSession(data, resolvedTask)

    val pageSplited = PageUtils.aggeratePageSplit(aggregated)

    PageUtils.getResult(pageSplited, resolvedTask).foreachPartition { partition =>

      {

      }

    }

}

}

PageUtils.scala

package com.dt.spak.SparkApps.pageLinks

import org.apache.spark.SparkContext

import org.apache.spark.rdd.RDD

object PageUtils {

def getData(sc: SparkContext): RDD[String] = {

    generateData(sc)

}

def generateData(sc: SparkContext): RDD[String] = {

    /**

     * 数据可以来自于流处理系统，也可以来自批处理系统

     *

     */

    // MapPartitionsRDD[(String,String)] //要是同一个包 org.apache.spark.rdd

    sc.parallelize("I into Spark so much".split(" "))

}

def parseArgsFromUser(args: Array[String]): Long = {

    0L

}

def aggerateOnSession(rdd: RDD[String], taskType: Long): RDD[String] = {

    rdd

}

def aggeratePageSplit(rdd: RDD[String]): RDD[String] = {

    rdd

}

def getResult(rdd: RDD[String], taskType: Long): RDD[String] = {

    rdd

}

}

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航

大数据Spark “蘑菇云”行动补充内容第66课： 即将成为Spark未来的Spark SQL

大数据Spark “蘑菇云”行动补充内容第66课：即将成为Spark未来的Spark SQL