第50课 Spark 2.0项目概述
2016-09-20 21:25
204 查看
第一步:需求:数据的输入和数据的产出,大数据技术项目好比一台榨汁机,
数据输入相当于例如苹果、柠檬等,然后通过榨汁机产出果汁;
第二步:数据量、处理效率、可靠性、维护性、简洁性
第三步:数据建模
第四步:架构设计:数据怎么进来,输出怎么展示,最最重要的是处理流出的架构;
第五步:我会再次思考大数据系统和企业IT系统的交互;
第六步:最终确定的技术(例如Spark、Kafka、Flume、HBase)选择、规范等
第七步:基于数据建模写基础服务代码
第八步:正式编写第一个模块!编码、测试、调试、改进等等
第九步:实现其它的模块,并完成测试和调试等
第十步:测试和验收
Data Source:
机器 和用户的行为记录
Socket或者HTTP协议传输数据到服务端
Server:
第一步:服务器例如Apache,Nginx,Tomcat等接受到数据;
第二步:J2EE等技术处理接收到的数据,一般是通过日志的方式 把数据保存在特定的目录下面或者数据库;
第三步:日志放置的目录是大数据组件中的Flume或者Kafka监控的目录
日志一般会经过Flume或者Kafka进行处理;
有时候数据比较复杂,需要我们使用定时系统或自己开发程序和脚本对数据进行初步处理,然后交给下游系统,一般是Flume
分布式数据管理:
这一个步骤重点说Flume:
Flume会监控具体的目录,当有数据来临的时候会把数据Sink到下游系统中.
此时数据是直接交给HDFS?
还是交给数据仓库系统Hive?
还是交给消息组件Kafka?
还是交给流处理系统呢?
流处理系统:
现在主要适用Storm和Spark Streaming
从Spark Streaming的角度考虑,我们在流处理的过程中可能用SparkSQL,ML,Graphx等;
当今大数据业界80%到90%都是基于Hive数据仓库
Hive:
在数据仓库中建表并获取上游的日志数据
数据的离线分析:
Hadoop和Spark,其实绝大多数据情况下都 是使用Hive本身中或者Spark SQL进行数据的多维度分析;
定时调度的问题:
其实离线数据分析的一个基本任务是进行数据清洗。
数据输入相当于例如苹果、柠檬等,然后通过榨汁机产出果汁;
第二步:数据量、处理效率、可靠性、维护性、简洁性
第三步:数据建模
第四步:架构设计:数据怎么进来,输出怎么展示,最最重要的是处理流出的架构;
第五步:我会再次思考大数据系统和企业IT系统的交互;
第六步:最终确定的技术(例如Spark、Kafka、Flume、HBase)选择、规范等
第七步:基于数据建模写基础服务代码
第八步:正式编写第一个模块!编码、测试、调试、改进等等
第九步:实现其它的模块,并完成测试和调试等
第十步:测试和验收
Data Source:
机器 和用户的行为记录
Socket或者HTTP协议传输数据到服务端
Server:
第一步:服务器例如Apache,Nginx,Tomcat等接受到数据;
第二步:J2EE等技术处理接收到的数据,一般是通过日志的方式 把数据保存在特定的目录下面或者数据库;
第三步:日志放置的目录是大数据组件中的Flume或者Kafka监控的目录
日志一般会经过Flume或者Kafka进行处理;
有时候数据比较复杂,需要我们使用定时系统或自己开发程序和脚本对数据进行初步处理,然后交给下游系统,一般是Flume
分布式数据管理:
这一个步骤重点说Flume:
Flume会监控具体的目录,当有数据来临的时候会把数据Sink到下游系统中.
此时数据是直接交给HDFS?
还是交给数据仓库系统Hive?
还是交给消息组件Kafka?
还是交给流处理系统呢?
流处理系统:
现在主要适用Storm和Spark Streaming
从Spark Streaming的角度考虑,我们在流处理的过程中可能用SparkSQL,ML,Graphx等;
当今大数据业界80%到90%都是基于Hive数据仓库
Hive:
在数据仓库中建表并获取上游的日志数据
数据的离线分析:
Hadoop和Spark,其实绝大多数据情况下都 是使用Hive本身中或者Spark SQL进行数据的多维度分析;
定时调度的问题:
其实离线数据分析的一个基本任务是进行数据清洗。
相关文章推荐
- 第50课:Spark 2.0项目概述
- 大数据Spark “蘑菇云”行动第50课程 Spark 2.0项目概述 项目!!!大项目!!!超大型大数据项目!!!
- 基于.NET 2.0的GIS开源项目SharpMap分析手记(十):开源空间信息软件体系与技术概述
- 基于.NET 2.0的GIS开源项目SharpMap分析手记(十):开源空间信息软件体系与技术概述
- Spark大型项目下的Spark Streaming本质剖析(全面涵盖Spark 2.0的精髓)项目!!!大项目!!!超大型大数据项目!!!
- 【备忘】2017Spark 2.0大型项目实战:移动电商app交互式数据分析
- 快学Spark 2.0(新特性、含真实项目、纯Scala语言开发、CDH5.7) 分享下载地址——https://pan.baidu.com/s/1jHVvIAi 密码: sirk 本课程从基础开
- 【Spark2.0源码学习】-1.概述
- Spark 2.0大型项目实战:移动电商app交互式数据分析平台(大数据高端课程) 下载
- 基于.NET 2.0的GIS开源项目SharpMap分析手记(十):开源空间信息软件体系与技术概述
- 【Spark2.0源码学习】-1.概述
- Spark 2.0大型项目实战:移动电商app交互式数分析平台
- SparkStreaming项目实战系列——1.实时流概述
- Spring Framework 2.0 Reference翻译项目正式启动
- AJAX 弄潮Web 2.0 在线Office项目复活
- 使用 IIS 进行 Microsoft ASP.NET 2.0 成员/角色管理,第 1 部分:安全和配置概述
- ASP.NET 2.0 中的新增服务、控件与功能概述
- ASP.NET 2.0 中的新增服务、控件与功能概述
- ASP.NET 2.0 中的新增服务、控件与功能概述
- 网站项目建设流程概述