Spark Streaming学习笔记
2017-10-02 16:28
281 查看
Spark Streaming是构建在Spark基础上的一个实时数据流处理框架。能够对流式数据进行可扩展的、高吞吐的、高容错的实时处理。
批生成间隔(batch interval)
数据采集确是实时的、逐条进行的,而处理数据的单位是一批,因此需要确定一个时间间隔。系统对这个间隔内获得的数据统一操作,称为批生成时间间隔,决定了作业提交的频率,是系统调优的重要参数。
Dstream(Discretized Stream)
Spark Streaming的一个基本数据抽象,以离散化、有序的RDDs的形式描述了连续的数据流,内部维护了一组离散的以时间为键的RDD。
窗口长度(Window Length)
窗口是一个时间概念,抽象地描述了Spark Streaming对DStream进行监控与处理的范围与粒度,可以对一定时间范围内的数据进行统计和分析。
滑动时间间隔(Sliding Interval)
指明了Spark Streaming对数据统计与分析的频率。
cache与persist
可将DStream缓存在内存中;与窗口、状态相关的操作,默认将数据保存在内存中
reduceByWindow、reduceByKeyAndWindow、updateStateByKey
checkpoint的作用
Spark Streaming应用程序对数据流进行实时连续的计算,需具备很强的容错性,保存了相应的信息到存储系统,在JVM崩溃等故障时,用以从故障中恢复。
启用checkpoint的场景
业务逻辑中含有有状态转换操作
有状态模式:当前计算依赖于先前批次数据
从运行应用程序的driver的故障中恢复
元数据checkpoint用于使用进度信息进行恢复
批生成间隔(batch interval)
数据采集确是实时的、逐条进行的,而处理数据的单位是一批,因此需要确定一个时间间隔。系统对这个间隔内获得的数据统一操作,称为批生成时间间隔,决定了作业提交的频率,是系统调优的重要参数。
Dstream(Discretized Stream)
Spark Streaming的一个基本数据抽象,以离散化、有序的RDDs的形式描述了连续的数据流,内部维护了一组离散的以时间为键的RDD。
窗口长度(Window Length)
窗口是一个时间概念,抽象地描述了Spark Streaming对DStream进行监控与处理的范围与粒度,可以对一定时间范围内的数据进行统计和分析。
滑动时间间隔(Sliding Interval)
指明了Spark Streaming对数据统计与分析的频率。
cache与persist
可将DStream缓存在内存中;与窗口、状态相关的操作,默认将数据保存在内存中
reduceByWindow、reduceByKeyAndWindow、updateStateByKey
checkpoint的作用
Spark Streaming应用程序对数据流进行实时连续的计算,需具备很强的容错性,保存了相应的信息到存储系统,在JVM崩溃等故障时,用以从故障中恢复。
启用checkpoint的场景
业务逻辑中含有有状态转换操作
有状态模式:当前计算依赖于先前批次数据
从运行应用程序的driver的故障中恢复
元数据checkpoint用于使用进度信息进行恢复
相关文章推荐
- Spark2.x学习笔记:17、Spark Streaming之HdfsWordCount 学习
- spark-streaming学习笔记总结
- Spark学习笔记(20)Spark Streaming中动态Batch Size实现初探
- Spark学习笔记-SparkStreaming简单用法
- Spark学习笔记(3)SparkStreaming架构进阶之Job和容错
- 大数据Spark企业级实战版【学习笔记】-----Spark Streaming的编程模式
- Spark学习笔记(4)Spark Streaming的Exactly-One的事务处理
- spark-streaming-[8]-Spark Streaming + Kafka Integration Guide0.8.2.1学习笔记
- Spark学习笔记(29)Spark Streaming日志和Web监控台
- Spark学习笔记(30)集群运行模式下的Spark Streaming调试
- Spark学习笔记 --- SparkStreaming 中基本概念
- Spark学习笔记(5)Spark Streaming流计算框架的运行源码
- Spark学习笔记(15)Spark Streaming源码解读之No Receivers
- Spark学习笔记之-Spark-Streaming
- 大数据Spark企业级实战版【学习笔记】----Spark Streaming
- Spark学习笔记(24)StreamingContext及JobScheduler源码图解
- Spark学习笔记-Streaming-1<转>
- spark大数据处理技术读书笔记:spark streaming学习笔记
- Spark2.x学习笔记:18、Spark Streaming程序解读
- Spark Streaming学习笔记