大数据IMF传奇行动绝密课程第71课:Spark SQL窗口函数解密与实战
2017-03-09 23:27
260 查看
Spark SQL窗口函数解密与实战
1、Spark SQL窗口函数解析2、Spark SQL窗口函数实战
/** * Scala代码 */ package com.tom.spark.sql import org.apache.spark.sql.DataFrame import org.apache.spark.{SparkConf, SparkContext} import org.apache.spark.sql.hive.HiveContext object SparkSQLWindowFunctionOps { def main(args: Array[String]): Unit = { val conf = new SparkConf().setMaster("local").setAppName("SparkSQLWindowFunctionOps") val sc = new SparkContext(conf) val hiveContext = new HiveContext(sc) hiveContext.sql("use hive") //使用名称为hive的数据库,接下来所有的表操作都位于这个库 /** * 如果要创建的表存在的话就删除,然后创建我们要导入数据的表 */ hiveContext.sql("DROP TABLE IF EXISTS scores") hiveContext.sql("CREATE TABLE IF NOT EXISTS scores(name STRING,score INTEGER)" + "ROW FORMAT DELIMITED FIELDS TERMINATED BY ' ' LINES TERMINATED BY '\\n'") //把要处理的数据导入到Hive的表中 hiveContext.sql("LOAD DATA LOCAL INPATH '/root/Documents/SparkApps/resources/topNGroup.txt' INTO TABLE scores") /** * 使用子查询的方式完成目标数据的提取,在目标数据内部使用窗口函数row_number来进行分组排序 * PARTITION BY:指定窗口函数分组的Key; * ORDER BY:分组后进行排序; * */ val result = hiveContext.sql("SELECT name, score FROM (" + "SELECT name, score, row_number() OVER (PARTITION BY name ORDER BY score DESC) rank FROM scores" + ") sub_scores " + "WHERE rank<=4") result.show() //把数据保存到Hive数据仓库中 hiveContext.sql("DROP TABLE EXISTS sortedResultScores") result.saveAsTable("sortedResultScores") } }
相关文章推荐
- 大数据IMF传奇行动绝密课程第93课:SparkStreaming updateStateByKey案例实战和内置源码解密
- 大数据IMF传奇行动绝密课程第90课:SparkStreaming基于Kafka Receiver案例实战和内幕源码解密
- 大数据IMF传奇行动绝密课程第72课:Spark SQL UDF和UDAF解密与实战
- 大数据IMF传奇行动绝密课程第61课:Spark SQL数据加载和保存内幕深度解密实战
- 大数据IMF传奇行动绝密课程第85课:基于HDFS的SparkStreaming案例实战和内幕源码解密
- 大数据IMF传奇行动绝密课程第87课:Flume推送数据到Spark Streaming案例实战和内幕源码解密
- 大数据IMF传奇行动绝密课程第70课:Spark SQL内置函数解密与实战
- 大数据IMF传奇行动绝密课程第91课:SparkStreaming基于Kafka Direct案例实战和内幕源码解密
- 大数据IMF传奇行动绝密课程第88课:SparkStreaming从Flume Poll数据案例实战和内幕源码解密
- 大数据IMF传奇行动绝密课程第55课:60分钟从零起步驾驭Hive实战
- 大数据IMF传奇行动绝密课程第12课:HA下的Spark集群工作原理解密
- 大数据IMF传奇行动绝密课程第82课:Spark Streaming案例动手实战并在电光石火间理解其工作原理
- 大数据IMF传奇行动绝密课程第14课:Spark RDD解密
- 大数据IMF传奇行动绝密课程第32课:Spark Worker原理和源码剖析解密
- 大数据IMF传奇行动绝密课程第60课:使用Java和Scala在IDE中实战RDD和DataFrame动态转换操作
- 大数据IMF传奇行动绝密课程第27课:Spark on Yarn彻底解密
- 大数据IMF传奇行动绝密课程第29课:Master HA彻底解密
- 大数据IMF传奇行动绝密课程第57课:Spark SQL on Hive配置及实战
- 大数据IMF传奇行动绝密课程第13课:Spark内核架构解密
- 大数据IMF传奇行动绝密课程第33课:Spark Executor内幕彻底解密