大数据入门笔记(一)
2016-05-09 00:00
162 查看
摘要: 这是我之前学习大数据hadoop的一些笔记,今天偶尔拿出来看看,顺便上传到博客中
大数据技术生态体系:
Hadoop(hdfs、mapreduce、yarn) 元老级大数据处理技术框架,擅长离线数据分析
Zookeeper 分布式协调服务基础组件
Hbase 分布式海量数据库,离线分析和在线业务通吃
Hive sql 数据仓库工具,使用方便,功能丰富,基于MR延迟大
Sqoop数据导入导出工具
Flume数据采集框架
Storm 实时流式计算框架,流式处理领域头牌框架
Spark 基于内存的分布式运算框架,一站式处理 all in one,新秀,发展势头迅猛 sparkCore SparkSQL SparkStreaming
机器学习<数据挖掘>(皇冠上的钻石):
Mahout 基于mapreduce的机器学习算法库
MLLIB 基于spark机器学习算法库
如何学习大数据?(也适用其他编程框架的学习)
一、理解该工框架的功能和适用场景
二、使用(安装部署,编程规范,API)
三、运行机制
四、架构原理
五、源码
大数据技术生态体系:
Hadoop(hdfs、mapreduce、yarn) 元老级大数据处理技术框架,擅长离线数据分析
Zookeeper 分布式协调服务基础组件
Hbase 分布式海量数据库,离线分析和在线业务通吃
Hive sql 数据仓库工具,使用方便,功能丰富,基于MR延迟大
Sqoop数据导入导出工具
Flume数据采集框架
Storm 实时流式计算框架,流式处理领域头牌框架
Spark 基于内存的分布式运算框架,一站式处理 all in one,新秀,发展势头迅猛 sparkCore SparkSQL SparkStreaming
机器学习<数据挖掘>(皇冠上的钻石):
Mahout 基于mapreduce的机器学习算法库
MLLIB 基于spark机器学习算法库
如何学习大数据?(也适用其他编程框架的学习)
一、理解该工框架的功能和适用场景
二、使用(安装部署,编程规范,API)
三、运行机制
四、架构原理
五、源码
相关文章推荐
- 大数据入门笔记(二)
- 大数据入门笔记(三)
- 大数据入门笔记(四)
- Hadoop 2.x伪分布式环境搭建详细步骤
- hdu3446 daizhenyang's chess 【一般图匹配】
- 利用Gensim训练关于英文维基百科的Word2Vec模型(Training Word2Vec Model on English Wikipedia by Gensim)
- IBM Watson物联网平台的两个MQTT工具
- Andorid总结 - AIDL
- shiro中的filterChainDefinitions
- 442 - Matrix Chain Multiplication
- HDU 3420 Bus Fair(贪心)
- 下一代大数据系统和4S标准
- 大数据流式处理的利与弊
- Laxcus大数据管理系统2.0(14)- 后记
- 浅谈开源大数据平台的演变
- 【LeetCode】Factorial Trailing Zeroes 解题报告
- haartraining生成.xml文件过程
- haartraining前将统一图片尺寸方法
- 514 - Rails
- 一文读懂机器学习,大数据/自然语言处理/算法全有了