基于Spark1.3.0的Spark sql三个核心部分
2016-05-26 16:16
281 查看
基于Spark1.3.0的Spark sql三个核心部分:
1.可以架子啊各种结构化数据源(JSON,Hive,and Parquet)
2.可以让你通过SQL,saprk内部程序或者外部攻击,通过标准的数据库连接(JDBC/ODBC)连接spark,比如一个商业智能的工具Tableau
3.当你通过使用spark程序,spark sql提供丰富又智能的SQL或者regular Python/Java/Scala code,包括 join RDDS ,SQL tables ,使用SQL自定义用户函数
以下资料参考自:http://blog.csdn.net/stark_summer/article/details/45843803
在Spark中提供了一个JdbcRDD类,该RDD就是读取JDBC中的数据并转换成RDD,之后我们就可以
对该RDD进行各种操作。我们先看看该类:
JdbcRDD[T:ClassTag](sc:SparkContext,getConnection:()=>Connection,
sql:String,lowerBound:Long,upperBound:Long,numPartitions:Int,
mapRow:(ResultSet)=> T=JdbcRDD.resultSetToObjectArray _)
1、getConnection 返回一个已经打开的结构化数据库连接,JdbcRDD会自动维护关闭。
2、sql:是查询语句,次查询已经必须包含两处占位符?来作为分割数据库ResultSet的参数,
例如:"select title,author from books where ?<=id and id<=?"
3.lowerBound,upperBound,numPartitions:分别为第一、第二占位符,partition的个数。例如:给出lowebound 1,upperbound 20 numpartitions 2,则查询分别为(1,10,)与(11,20)
4.mapRow是转换函数,将返回的ResultSet转换成RDD需要的单行数据,此处可以选择Array或其他,也可以是自定义的case class.默认的是讲ResultSet转换成一个Object数组。
1.可以架子啊各种结构化数据源(JSON,Hive,and Parquet)
2.可以让你通过SQL,saprk内部程序或者外部攻击,通过标准的数据库连接(JDBC/ODBC)连接spark,比如一个商业智能的工具Tableau
3.当你通过使用spark程序,spark sql提供丰富又智能的SQL或者regular Python/Java/Scala code,包括 join RDDS ,SQL tables ,使用SQL自定义用户函数
以下资料参考自:http://blog.csdn.net/stark_summer/article/details/45843803
在Spark中提供了一个JdbcRDD类,该RDD就是读取JDBC中的数据并转换成RDD,之后我们就可以
对该RDD进行各种操作。我们先看看该类:
JdbcRDD[T:ClassTag](sc:SparkContext,getConnection:()=>Connection,
sql:String,lowerBound:Long,upperBound:Long,numPartitions:Int,
mapRow:(ResultSet)=> T=JdbcRDD.resultSetToObjectArray _)
1、getConnection 返回一个已经打开的结构化数据库连接,JdbcRDD会自动维护关闭。
2、sql:是查询语句,次查询已经必须包含两处占位符?来作为分割数据库ResultSet的参数,
例如:"select title,author from books where ?<=id and id<=?"
3.lowerBound,upperBound,numPartitions:分别为第一、第二占位符,partition的个数。例如:给出lowebound 1,upperbound 20 numpartitions 2,则查询分别为(1,10,)与(11,20)
4.mapRow是转换函数,将返回的ResultSet转换成RDD需要的单行数据,此处可以选择Array或其他,也可以是自定义的case class.默认的是讲ResultSet转换成一个Object数组。
相关文章推荐
- win7安装MongoDB服务
- JAVA对Redis的使用
- Redis 集群方案
- oracle 相关手册
- 增加MySql连接数
- Spark SQL/Hive 同一列的多行记录合并为一行
- js操作数据库实现注册和登陆的简单实例
- 分布式缓存系统Memcached简介与实践
- SQL分页的应用
- SQL查询某字段数据相同的数据
- sqlserver表分区小结
- Mac Pro下卸载安装Mysql
- ERROR 2002 (HY000): Can't connect to local MySQL server through socket '/tmp/mysql.sock' (2)
- sqlserver数据以及日志文件的设置小结
- mongoDB 修改器()
- redis常用命令
- 只知道ODBC中设置的系统数据源DNS 名称,如何连接SQL数据库?
- zabbix 自带模板监控mysql
- MySQL外键约束
- mybatis sql in 查询