您的位置:首页 > 大数据

大数据入门笔记(一)

2016-05-09 00:00 162 查看
摘要: 这是我之前学习大数据hadoop的一些笔记,今天偶尔拿出来看看,顺便上传到博客中

大数据技术生态体系:

Hadoop(hdfs、mapreduce、yarn) 元老级大数据处理技术框架,擅长离线数据分析

Zookeeper 分布式协调服务基础组件

Hbase 分布式海量数据库,离线分析和在线业务通吃

Hive sql 数据仓库工具,使用方便,功能丰富,基于MR延迟大

Sqoop数据导入导出工具

Flume数据采集框架

Storm 实时流式计算框架,流式处理领域头牌框架

Spark 基于内存的分布式运算框架,一站式处理 all in one,新秀,发展势头迅猛 sparkCore SparkSQL SparkStreaming

机器学习<数据挖掘>(皇冠上的钻石):

Mahout 基于mapreduce的机器学习算法库

MLLIB 基于spark机器学习算法库

如何学习大数据?(也适用其他编程框架的学习)

一、理解该工框架的功能和适用场景

二、使用(安装部署,编程规范,API)

三、运行机制

四、架构原理

五、源码
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: