您的位置:首页 > 运维架构

01hadoop简介

2017-09-05 00:32 253 查看

01Hadoop简介

什么是大数据

传统数据存储

1.关系型数据库
2.word、excel、ppt等文件存储方式


大数据的特点

1.数据量大;
2.数据种类多;
3.数据增长速度快;
4.价值密度低


大数据的本质

通过一系列的数据处理框架对大数据进行分析处理,得到有价值的数据;


数据分析的流程

1.数据源(rdbms,nginx等日志文件,历史数据文件)

1.格式化的数据
2.半格式化的数据,半格式化的数据需要转化为格式化的数据类型


2.数据采集

1.flume:实时的数据采集框架
1.用来做数据采集;
2.他们可以将数据采集到文件系统中(hdfs);
2.sqoop:用于数据的导入导出
3.kafka:实时的消息中间件,相当于缓存


3.数据存储(分布式)

1.Hadoop:HDFS
2.Hbase:nosql
1.是一个Hadoop的数据库
2.和Mysql的区别:
1.Mysql是关系型数据库,而Hbase是nosql,nosql是没有关系的(即没有外键的概念)


4.数据处理(分布式)

1.hadoop:mapreduce
2.spark
3.hive
1.将数据文件映射成表;
2.使用HQL语句操作数据;
4.impala


5.数据展示

1.echarts
2.highcharts


Hadoop的介绍

Hadoop官网

http://hadoop.apache.org/


Hadoop的功能

1.通过分布式存储解决大数据的存储问题;
2.通过分布式计算解决大数据的计算问题;


核心

1.HDFS(分布式的存储系统)
2.MapReduce(分布式的计算框架)


Hadoop的四大组件:

1.Hapoop Common:用于支持其他组件,hadoop会集成其他框架一起使用,common就会提供一些其他框架集成hadoop需要的接口;
2.Hadoop Distributed File System(HDFS)
1.分块存储
2.副本机制
3.Hadoop YARN:用于任务的调度和资源的管理(CPU、内存、磁盘、网络等资源)
4.Hadoop MapReduce:分布式计算模型
1.map:将文件进行拆分,然后进行处理;
2.reduce:将map阶段处理后的每个结果进行合并;
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签:  hadoop