spark sql基本使用方法介绍(转载)
2017-07-10 18:30
666 查看
spark sql基本使用方法介绍
Spark中可以通过spark sql 直接查询Hive或impala中的数据,
一、启动方法
/data/spark-1.4.0-bin-cdh4/bin/spark-sql –master spark://master:7077 –total-executor-cores 10 –executor-memory 1g –executor-cores 2
注:/data/spark-1.4.0-bin-cdh4/为spark的安装路径
/data/spark-1.4.0-bin-cdh4/bin/spark-sql –help 查看启动选项
–master MASTER_URL 指定master url
–executor-memory MEM 每个executor的内存,默认为1G
–total-executor-cores NUM 所有executor的总核数
-e 直接执行查询SQL
-f 以文件方式批量执行SQL
二、Spark sql对hive支持的功能
1、查询语句:SELECT GROUP BY ORDER BY CLUSTER BY SORT BY
2、hive操作运算:
1) 关系运算:= ==, <>, <, >, >=, <=
2) 算术运算:+, -, *, /, %
3) 逻辑运算:AND, &&, OR, ||
4) 复杂的数据结构
5) 数学函数:(sign, ln, cos, etc)
6) 字符串函数:
3、 UDF
4、 UDAF
5、 用户定义的序列化格式
6、join操作:JOIN {LEFT|RIGHT|FULL} OUTER JOIN LEFT SEMI JOIN CROSS JOIN
7、 unions操作:
8、 子查询: SELECT col FROM ( SELECT a + b AS col from t1) t2
9、Sampling
10、 Explain
11、 分区表
12、 视图
13、 hive ddl功能:CREATE TABLE、CREATE TABLE AS SELECT、ALTER TABLE
14、 支持的数据类型:TINYINT SMALLINT INT BIGINT BOOLEAN FLOAT DOUBLE STRING BINARY TIMESTAMPDATE ARRAY MAP STRUCT
三、Spark sql 在客户端编程方式进行查询数据
1、启动spark-shell
./spark-shell –master spark://master:7077 –total-executor-cores 10 –executor-memory 1g –executor-cores 2
2、编写程序
val sqlContext = new org.apache.spark.sql.SQLContext(sc)
val df = sqlContext.read.json(“../examples/src/main/resources/people.json”)
查看所有数据:df.show()
查看表结构:df.printSchema()
只看name列:df.select(“name”).show()
对数据运算:df.select(df(“name”), df(“age”) + 1).show()
过滤数据:df.filter(df(“age”) > 21).show()
分组统计:df.groupBy(“age”).count().show()
1、查询txt数据
import sqlContext.implicits._
case class Person(name: String, age: Int)
val people = sc.textFile(“../examples/src/main/resources/people.txt”).map(_.split(“,”)).map(p => Person(p(0), p(1).trim.toInt)).toDF()
people.registerTempTable(“people”)
val teenagers = sqlContext.sql(“SELECT name, age FROM people WHERE age >= 13 AND age <= 19”)
2、parquet文件
val df = sqlContext.read.load(“../examples/src/main/resources/users.parquet”)
3、hdfs文件
val df = sqlContext.read.load(“hdfs://namenode.Hadoop:9000/user/hive/warehouse/spark_test.db/test_parquet/part-r-00001.gz.parquet”)
4、保存查询结果数据
val df = sqlContext.read.load(“../examples/src/main/resources/users.parquet”)
df.select(“name”, “favorite_color”).write.save(“namesAndFavColors.parquet“)
四、Spark sql性能调优
缓存数据表:sqlContext.cacheTable(“tableName”)
取消缓存表:sqlContext.uncacheTable(“tableName”)
spark.sql.inMemoryColumnarStorage.compressedtrue 当设置为true时,Spark SQL将为基于数据统计信息的每列自动选择一个压缩算法。
spark.sql.inMemoryColumnarStorage.batchSize 10000 柱状缓存的批数据大小。更大的批数据可以提高内存的利用率以及压缩效率,但有OOMs的风险
Spark中可以通过spark sql 直接查询Hive或impala中的数据,
一、启动方法
/data/spark-1.4.0-bin-cdh4/bin/spark-sql –master spark://master:7077 –total-executor-cores 10 –executor-memory 1g –executor-cores 2
注:/data/spark-1.4.0-bin-cdh4/为spark的安装路径
/data/spark-1.4.0-bin-cdh4/bin/spark-sql –help 查看启动选项
–master MASTER_URL 指定master url
–executor-memory MEM 每个executor的内存,默认为1G
–total-executor-cores NUM 所有executor的总核数
-e 直接执行查询SQL
-f 以文件方式批量执行SQL
二、Spark sql对hive支持的功能
1、查询语句:SELECT GROUP BY ORDER BY CLUSTER BY SORT BY
2、hive操作运算:
1) 关系运算:= ==, <>, <, >, >=, <=
2) 算术运算:+, -, *, /, %
3) 逻辑运算:AND, &&, OR, ||
4) 复杂的数据结构
5) 数学函数:(sign, ln, cos, etc)
6) 字符串函数:
3、 UDF
4、 UDAF
5、 用户定义的序列化格式
6、join操作:JOIN {LEFT|RIGHT|FULL} OUTER JOIN LEFT SEMI JOIN CROSS JOIN
7、 unions操作:
8、 子查询: SELECT col FROM ( SELECT a + b AS col from t1) t2
9、Sampling
10、 Explain
11、 分区表
12、 视图
13、 hive ddl功能:CREATE TABLE、CREATE TABLE AS SELECT、ALTER TABLE
14、 支持的数据类型:TINYINT SMALLINT INT BIGINT BOOLEAN FLOAT DOUBLE STRING BINARY TIMESTAMPDATE ARRAY MAP STRUCT
三、Spark sql 在客户端编程方式进行查询数据
1、启动spark-shell
./spark-shell –master spark://master:7077 –total-executor-cores 10 –executor-memory 1g –executor-cores 2
2、编写程序
val sqlContext = new org.apache.spark.sql.SQLContext(sc)
val df = sqlContext.read.json(“../examples/src/main/resources/people.json”)
查看所有数据:df.show()
查看表结构:df.printSchema()
只看name列:df.select(“name”).show()
对数据运算:df.select(df(“name”), df(“age”) + 1).show()
过滤数据:df.filter(df(“age”) > 21).show()
分组统计:df.groupBy(“age”).count().show()
1、查询txt数据
import sqlContext.implicits._
case class Person(name: String, age: Int)
val people = sc.textFile(“../examples/src/main/resources/people.txt”).map(_.split(“,”)).map(p => Person(p(0), p(1).trim.toInt)).toDF()
people.registerTempTable(“people”)
val teenagers = sqlContext.sql(“SELECT name, age FROM people WHERE age >= 13 AND age <= 19”)
2、parquet文件
val df = sqlContext.read.load(“../examples/src/main/resources/users.parquet”)
3、hdfs文件
val df = sqlContext.read.load(“hdfs://namenode.Hadoop:9000/user/hive/warehouse/spark_test.db/test_parquet/part-r-00001.gz.parquet”)
4、保存查询结果数据
val df = sqlContext.read.load(“../examples/src/main/resources/users.parquet”)
df.select(“name”, “favorite_color”).write.save(“namesAndFavColors.parquet“)
四、Spark sql性能调优
缓存数据表:sqlContext.cacheTable(“tableName”)
取消缓存表:sqlContext.uncacheTable(“tableName”)
spark.sql.inMemoryColumnarStorage.compressedtrue 当设置为true时,Spark SQL将为基于数据统计信息的每列自动选择一个压缩算法。
spark.sql.inMemoryColumnarStorage.batchSize 10000 柱状缓存的批数据大小。更大的批数据可以提高内存的利用率以及压缩效率,但有OOMs的风险
相关文章推荐
- spark sql基本使用方法介绍
- spark sql基本使用方法介绍
- Sql Server数据库事务介绍(二)---Sql语句,SqlTransaction和TransactionScope的使用方法 (转载)
- 【转载】Spark SQL 1.3.0 DataFrame介绍、使用
- spark sql根本使用方法介绍
- Vi编辑器的基本使用方法 (转载)
- sqlserver profiler基本使用方法简介
- sql 系统 存储过程的使用方法 转载
- java.util.Date和java.sql.Date的使用方法,转载
- 最新Everest 企业版(AIDA64)使用SQL保存数据的方法介绍
- Sql Server数据库事务介绍(二)---Sql语句,SqlTransaction和TransactionScope的使用方法
- (转载)使用DbHelperSQL调用存储过程的方法
- ORACLE PL/SQL 中序列(sequence)的简易使用方法介绍 - [Oracle SQL]
- UITableView总结:基本使用方法介绍
- (转载) UITableView 系列一 :基本使用方法 (显示,删除,添加图片,添加样式等
- vi/vim 基本使用方法(转载)
- 详细介绍SQL2005及2008中事务SqlTransaction和TransactionScope使用方法[转]
- Sql Server数据库事务介绍(二)---Sql语句,SqlTransaction和TransactionScope的使用方法
- PerformanceCounter 基本介绍以及示例方法(转载)
- Sql Server数据库事务介绍Sql语句,SqlTransaction和TransactionScope的使用方法