1.hadoop的认识
2015-12-11 11:05
295 查看
占有率:Hadoop57.5% Hbase23.2%
截至2012年12月23日,Apache Hadoop版本分为两代,我们将第一代Hadoop称为Hadoop 1.0,第二代Hadoop称为Hadoop 2.0。第一代Hadoop包含三个大版本,分别是0.20.x,0.21.x和0.22.x,其中,0.20.x最后演化成1.0.x,变成了稳定版,而0.21.x和0.22.x则NameNode HA等新的重大特性。第二代Hadoop包含两个版本,分别是0.23.x和2.x,它们完全不同于Hadoop 1.0,是一套全新的架构,均包含HDFS Federation和YARN两个系统,相比于0.23.x,2.x增加了NameNode HA和Wire-compatibility两个重大特性
Hadoop是:
Apache开源软件基金会开发的,运用于大规模普通服务器上的,大数据存储,计算,分析的分布式存储系统和分布式运算框架
Hadoop2.0:
(三部分组成)
分布式文件系统HDFS:操作系统级别上的
资源分配系统Yarn:(动态计算<cpu[单位是路和颗]内存>资源调度
谁先做谁后做等)
分布式运算框架MapReduce:!!!
Hadoop生态系统:
搜狗案例剖析
详情页+列表页+搜索页
date id key rank order url
搜索数据介绍
系统架构与核心功能模块:
WEB SERVER :<Server:机架式塔式小机式大机式>
日志采集平台:traffic流量
日志清洗,加载:rush+load
数据仓库:(Nosql->关系型数据库->展现web页面)
离线分析系统
ETL加载
关系型数据库
WEB系统数据展示
截至2012年12月23日,Apache Hadoop版本分为两代,我们将第一代Hadoop称为Hadoop 1.0,第二代Hadoop称为Hadoop 2.0。第一代Hadoop包含三个大版本,分别是0.20.x,0.21.x和0.22.x,其中,0.20.x最后演化成1.0.x,变成了稳定版,而0.21.x和0.22.x则NameNode HA等新的重大特性。第二代Hadoop包含两个版本,分别是0.23.x和2.x,它们完全不同于Hadoop 1.0,是一套全新的架构,均包含HDFS Federation和YARN两个系统,相比于0.23.x,2.x增加了NameNode HA和Wire-compatibility两个重大特性
Hadoop是:
Apache开源软件基金会开发的,运用于大规模普通服务器上的,大数据存储,计算,分析的分布式存储系统和分布式运算框架
Hadoop2.0:
(三部分组成)
分布式文件系统HDFS:操作系统级别上的
资源分配系统Yarn:(动态计算<cpu[单位是路和颗]内存>资源调度
谁先做谁后做等)
分布式运算框架MapReduce:!!!
BigTable | HBase |
MR | MR |
GFS | HDFS |
数据分析 | 数据检索 | 数据展现 | 数据分享 |
Mahout | (驾驭大象的人)数据挖掘的工具包 基于MR的算法库 |
HBase | 列式数据库Nosql |
Hive | 数据仓库 (用sql) |
Avro | 快速序 b760 列化 ,持久化(内存-->本地) 接口序列化开发工具 |
Zookeeper | 通信的管理和协调 分布式协同调度 |
Flume | 日志采集和管理 数据流收集工具 |
Sqoop | ETL:抽取 转化 加载 |
Pig | 数据的预处理(有自己的语言) 类比Hive竞争关系 |
详情页+列表页+搜索页
date id key rank order url
搜索数据介绍
系统架构与核心功能模块:
WEB SERVER :<Server:机架式塔式小机式大机式>
日志采集平台:traffic流量
日志清洗,加载:rush+load
数据仓库:(Nosql->关系型数据库->展现web页面)
离线分析系统
ETL加载
关系型数据库
WEB系统数据展示
相关文章推荐
- 详解HDFS Short Circuit Local Reads
- Hadoop_2.1.0 MapReduce序列图
- 使用Hadoop搭建现代电信企业架构
- 单机版搭建Hadoop环境图文教程详解
- hadoop常见错误以及处理方法详解
- hadoop 单机安装配置教程
- hadoop的hdfs文件操作实现上传文件到hdfs
- hadoop实现grep示例分享
- Apache Hadoop版本详解
- linux下搭建hadoop环境步骤分享
- hadoop client与datanode的通信协议分析
- hadoop中一些常用的命令介绍
- Hadoop单机版和全分布式(集群)安装
- 用PHP和Shell写Hadoop的MapReduce程序
- hadoop map-reduce中的文件并发操作
- Hadoop1.2中配置伪分布式的实例
- java结合HADOOP集群文件上传下载
- 用python + hadoop streaming 分布式编程(一) -- 原理介绍,样例程序与本地调试
- Hadoop安装感悟
- hadoop安装lzo