利用 sparksession读取Parquet,Json格式文件
2017-07-09 16:33
645 查看
Spark支持的一些常见的格式:
import org.apache.spark.SparkConf
import org.apache.spark.sql.SparkSession
“`
SparkSession实质上是SQLContext和HiveContext的组合(未来可能还会加上StreamingContext),所以在SQLContext和HiveContext上可用的API在SparkSession上同样是可以使用的。SparkSession内部封装了sparkContext,所以计算实际上是由sparkContext完成的。
如果需要读hdfs数据的话,通常走Hive的比较多。一般写sql的时候,能用sparksession解决的,都不会去弄rdd的各种transform和action*
文本文件:无任何的格式 json文件:半结构化 parquet:一种流行的列式存储格式 sequencefile:一种(k-v)的Hadoop文件格式.
import org.apache.spark.SparkConf
import org.apache.spark.sql.SparkSession
object OpsWihtJson_and_parquet { def main(args: Array[String]): Unit = { val sparkconf = new SparkConf().setAppName("test_Spark_sql").setMaster("local[2]") val ss = SparkSession.builder() .config(sparkconf) .getOrCreate() val sc = ss.sparkContext import ss.implicits._ val fileRDD = sc.textFile("/opt/tarballs/spark_kafka/beifengspark/src/main/scala/2015082818") //读文本文件,生成普通rdd,通过.toDF转化为dataframe,然后可以就使用sql了 ss.read.json("/home/zkpk/Desktop/test.json") .createOrReplaceTempView("people") val rs = ss.sql("select * from people") rs.printSchema() rs.show() ss.read.parquet("/home/bymain/Desktop/mllibDATA/scalaLogisticRegressionWithSGDModel/data/part-r-00000-9295ec7d-956a-46e7-91f8-a0b6f8a8ac93.snappy.parquet") .createOrReplaceTempView("users") val rs2 = ss.sql("select * from users") rs2.printSchema() rs.show() sc.stop() ss.stop() } }
“`
SparkSession实质上是SQLContext和HiveContext的组合(未来可能还会加上StreamingContext),所以在SQLContext和HiveContext上可用的API在SparkSession上同样是可以使用的。SparkSession内部封装了sparkContext,所以计算实际上是由sparkContext完成的。
如果需要读hdfs数据的话,通常走Hive的比较多。一般写sql的时候,能用sparksession解决的,都不会去弄rdd的各种transform和action*
相关文章推荐
- grails框架中读取txt文件内容将内容转换为json格式,出现异常Exception in thread "main" org.json.JSONException: A JSONObject text must begin with '{' at character 1 of [...]
- 关于iOS中将json格式存到文件中并读取解析成字典
- PHP记录和读取JSON格式日志文件
- python读取和存储dict()与.json格式文件
- 使用java 程序创建格式为utf-8文件的方法(写入和读取json文件)
- 利用JAVA读取EMF相关文件并作相关格式的转化-实用知识
- Python 读取写入 json 格式的文件
- PHP记录和读取JSON格式日志文件
- iOS中 JSON格式文件的写入和读取
- jackson 读取或载入磁盘上的 json 格式文件
- 把配置文件以json字符串格式保存,并读取放到一个map中
- iPhone开发之UITableView的小试牛刀 利用MVC模式从plist文件读取数据并字典转模型的格式实现
- android 读取JSON格式文件
- 实现读取本地json格式文件并解析
- java读取json格式的文件详解
- Qt读取ANSI格式文件——利用QTextCodec将其他编码格式转换为Unicode格式
- 在VS2010中利用MFC读取word、ppt、excel格式文件
- 利用Python PIL、cPickle将图片读取和保存为pkl格式文件
- 读取五种格式的配置文件(xml(两种方式),txt,excel,csv,json)
- 在文件中读取、存储Json格式的字符串