Spark(火花)快速、通用的大数据处理引擎框架
一、什么是Spark(火花)?
是一种快速、通用处理大数据分析的框架引擎。
二、Spark的四大特性
1.快速:
Spark内存上采用DAG(有向无环图)执行引擎非循环数据流和内存计算支持。 内存上比MapReduce快速100倍,磁盘上快10倍左右
MapReduce存储读取在磁盘上,大数据批量处理系统
2.简洁性
编程起来很简单,Spark由Scala编写,方法式操作
Scala-Python-java
3.通用性
一站式相当于JAR包,结合SQL、流、库、图形、Apache Spark
4.运行方式环境
单独运行 集群 hadoop 云端
Spark与MapReduce(数据的处理引擎)的相比的区别?
1.基本原理
MapReduce是基于磁盘的大数据批量处理系统
Spark:基于RDD(弹性分布式数据处理集)数据处理,显式的将RDD数据存储到磁盘或者内存中
2.从模型上
MapReduce可以处理批量数据,适用于日志分析挖掘
Spark适合数据的挖掘
3.容错性
a)数据的容错性:
b)节点的容错性:spark lineage
Spark的编译
1.SBT编译 --scala编译
2.maven编译
安装jdk
下载地址:www.oracle.com/technetwork/java/javase/downloads/jdk9-downloads-3848520.html
安装maven
下载地址:maven.apache.org/download.cgi
2、配置环境变量
# sudo vim /etc/profile
JAVA_HOME=/opt/data02/jdk-9.0.1
CLASS_PATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar
PATH=$PATH:$JAVA_HOME/bin
export JAVA_HOME JRE_HOME CLASS_PATH PATH
MAVEN_HOME=/opt/data02/apache-maven-3.5.2
PATH=$PATH:$MAVEN_HOME/bin
#SCALA
SCALA_HOME=/opt/data02/SCALA
PATH=$PATH:$SCALA_HOME/bin
3、使配置文件立即生效
source /etc/profile
需要FQ的两个注意事项
1.sudo vi /etc/resolv.conf 添加
nameserver 8.8.8.8
nameserver 8.8.4.4
2.在maven 的setting.xml中添加
<mirror>
<id>osc_thirdparty</id>
<mirrorOf>thirdparty</mirrorOf>
<url>http://maven.oschina.net/content/repositories/thirdparty/</url>
</mirror>
3.打包编译
G M T
检测语言 世界语 中文简体 中文繁体 丹麦语 乌克兰语 乌兹别克语 乌尔都语 亚美尼亚语 伊博语 俄语 保加利亚语 僧伽罗语 克罗地亚语 冰岛语 加利西亚语 加泰罗尼亚语 匈牙利语 南非祖鲁语 卡纳达语 印地语 印尼巽他语 印尼爪哇语 印尼语 古吉拉特语 哈萨克语 土耳其语 塔吉克语 塞尔维亚语 塞索托语 威尔士语 孟加拉语 宿务语 尼泊尔语 巴斯克语 布尔语(南非荷兰语) 希伯来语 希腊语 德语 意大利语 意第绪语 拉丁语 拉脱维亚语 挪威语 捷克语 斯洛伐克语 斯洛文尼亚语 斯瓦希里语 旁遮普语 日语 格鲁吉亚语 毛利语 法语 波兰语 波斯尼亚语 波斯语 泰卢固语 泰米尔语 泰语 海地克里奥尔语 爱尔兰语 爱沙尼亚语 瑞典语 白俄罗斯语 立陶宛语 索马里语 约鲁巴语 缅甸语 罗马尼亚语 老挝语 芬兰语 苗语 英语 荷兰语 菲律宾语 葡萄牙语 蒙古语 西班牙语 豪萨语 越南语 阿塞拜疆语 阿尔巴尼亚语 阿拉伯语 韩语 马其顿语 马尔加什语 马拉地语 马拉雅拉姆语 马来语 马耳他语 高棉语 齐切瓦语 | 世界语 中文简体 中文繁体 丹麦语 乌克兰语 乌兹别克语 乌尔都语 亚美尼亚语 伊博语 俄语 保加利亚语 僧伽罗语 克罗地亚语 冰岛语 加利西亚语 加泰罗尼亚语 匈牙利语 南非祖鲁语 卡纳达语 印地语 印尼巽他语 印尼爪哇语 印尼语 古吉拉特语 哈萨克语 土耳其语 塔吉克语 塞尔维亚语 塞索托语 威尔士语 孟加拉语 宿务语 尼泊尔语 巴斯克语 布尔语(南非荷兰语) 希伯来语 希腊语 德语 意大利语 意第绪语 拉丁语 拉脱维亚语 挪威语 捷克语 斯洛伐克语 斯洛文尼亚语 斯瓦希里语 旁遮普语 日语 格鲁吉亚语 毛利语 法语 波兰语 波斯尼亚语 波斯语 泰卢固语 泰米尔语 泰语 海地克里奥尔语 爱尔兰语 爱沙尼亚语 瑞典语 白俄罗斯语 立陶宛语 索马里语 约鲁巴语 缅甸语 罗马尼亚语 老挝语 芬兰语 苗语 英语 荷兰语 菲律宾语 葡萄牙语 蒙古语 西班牙语 豪萨语 越南语 阿塞拜疆语 阿尔巴尼亚语 阿拉伯语 韩语 马其顿语 马尔加什语 马拉地语 马拉雅拉姆语 马来语 马耳他语 高棉语 齐切瓦语 |
选项 : 历史 : 反馈 : Donate | 关闭 |
- 大数据处理引擎Spark与Flink对比分析!
- 哈,我自己翻译的小书,马上就完成了,是讲用python处理大数据框架hadoop,spark的
- Spark - 大数据Big Data处理框架
- Spark - 大数据Big Data处理框架
- 管理数据通用权限系统快速开发框架设计
- Apache Spark:大数据处理统一引擎
- 三个大数据处理框架:Storm,Spark和Samza 介绍比较
- Spark-大数据处理框架的安装
- Hive数据分析——Spark是一种基于rdd(弹性数据集)的内存分布式并行处理框架,比于Hadoop将大量的中间结果写入HDFS,Spark避免了中间结果的持久化
- Spark入门,概述,部署,以及学习(Spark是一种快速、通用、可扩展的大数据分析引擎)
- 分布式sparkSQL引擎应用:从远程通过thriftServer连接spark集群处理hive中的数据
- Spark (大规模数据处理而设计的快速通用的计算引擎, 与MapReduce类似 ) 基础概念
- 大数据处理的三种框架:Storm,Spark和Samza
- 大数据处理的三种框架:Storm,Spark和Samza
- 大数据框架对比:Hadoop、Storm、Samza、Spark和Flink--容错机制(ACK,RDD,基于log和状态快照),消息处理at least once,exactly once两个是关键
- 管理数据通用权限系统快速开发框架设计
- Spark - 大数据Big Data处理框架
- 大数据处理引擎Spark与Flink大比拼
- 大数据处理框架分类与选择
- 流式大数据处理的三种框架:Storm,Spark和Samza