01hadoop简介
2017-09-05 00:32
253 查看
01Hadoop简介
什么是大数据
传统数据存储
1.关系型数据库 2.word、excel、ppt等文件存储方式
大数据的特点
1.数据量大; 2.数据种类多; 3.数据增长速度快; 4.价值密度低
大数据的本质
通过一系列的数据处理框架对大数据进行分析处理,得到有价值的数据;
数据分析的流程
1.数据源(rdbms,nginx等日志文件,历史数据文件)
1.格式化的数据 2.半格式化的数据,半格式化的数据需要转化为格式化的数据类型
2.数据采集
1.flume:实时的数据采集框架 1.用来做数据采集; 2.他们可以将数据采集到文件系统中(hdfs); 2.sqoop:用于数据的导入导出 3.kafka:实时的消息中间件,相当于缓存
3.数据存储(分布式)
1.Hadoop:HDFS 2.Hbase:nosql 1.是一个Hadoop的数据库 2.和Mysql的区别: 1.Mysql是关系型数据库,而Hbase是nosql,nosql是没有关系的(即没有外键的概念)
4.数据处理(分布式)
1.hadoop:mapreduce 2.spark 3.hive 1.将数据文件映射成表; 2.使用HQL语句操作数据; 4.impala
5.数据展示
1.echarts 2.highcharts
Hadoop的介绍
Hadoop官网
http://hadoop.apache.org/
Hadoop的功能
1.通过分布式存储解决大数据的存储问题; 2.通过分布式计算解决大数据的计算问题;
核心
1.HDFS(分布式的存储系统) 2.MapReduce(分布式的计算框架)
Hadoop的四大组件:
1.Hapoop Common:用于支持其他组件,hadoop会集成其他框架一起使用,common就会提供一些其他框架集成hadoop需要的接口; 2.Hadoop Distributed File System(HDFS) 1.分块存储 2.副本机制 3.Hadoop YARN:用于任务的调度和资源的管理(CPU、内存、磁盘、网络等资源) 4.Hadoop MapReduce:分布式计算模型 1.map:将文件进行拆分,然后进行处理; 2.reduce:将map阶段处理后的每个结果进行合并;
相关文章推荐
- 大数据入门-基础篇01-hadoop框架简介
- 4.hadoop之Zookeeper——01.简介及基本配置说明
- 大数据笔记01:大数据之Hadoop简介
- [置顶] 【Hadoop--01】Hadoop简介
- 十八掌教育_徐培成_Hadoop3.0-01.简介
- Hadoop学习笔记——01.简介
- [hadoop]MapReduce简介和安装(三)
- WebRTC 入门 01 简介 III
- Doug Cutting (Lucene-Nutch-Hadoop 创始人简介)
- Hadoop开发环境简介(转)
- JavaScript学习笔记01——简介(李炎恢JavaScript教程)
- 来玩Play框架01 简介
- CCNA学习日记-01-简介
- 01-Version 4.6 of the ArcGIS API for JavaScript简介
- APUE读书笔记-10信号-01简介
- iptables使用简介-01
- Hadoop详解一:Hadoop简介
- Hadoop大数据生态系统及常用组件简介
- 【自定义标签开发】01-标签简介和开发第一个标签
- 【hadoop zookeeper】Zookeeper开源客户端框架Curator简介