您的位置：首页 > 运维架构

Hadoop2.0/YARN深入浅出(Hadoop2.0、Spark、Storm和Tez)

2016-04-11 22:43 525 查看

随着云计算、大数据迅速发展，亟需用hadoop解决大数据量高并发访问的瓶颈。谷歌、淘宝、百度、京东
等底层都应用hadoop。越来越多的企业急需引入hadoop技术人才。由于掌握Hadoop技术
的开发人员并不多，直接导致了这几年hadoop技术的薪水远高于JavaEE及 Android程序员。

Hadoop入门薪资已经达到了 8K 以上，工作1年可达到 1.2W 以上，具有2-3年工作经验的hadoop人才年薪可以达到 30万—50万。

一般需要大数据处理的公司基本上都是大公司，所以学习hadoop技术也是进大公司的捷径！

中关村被称为中国硅谷，这里有着一群被外界称之为程序员的IT从业者。

但是一眼望去，大多数一线程序员的年龄均在20至30岁左右，40、50岁的人在这个行业内颇为罕见。

为什么在国内没有“老”程序员，而在国外五六十岁仍奋斗在一线岗位的程序员比比皆是？造成这种现象的原因是多方面的。

新 Hadoop Yarn 框架原理及运作机制

从业界使用分布式系统的变化趋势和 hadoop 框架的长远发展来看，MapReduce 的 JobTracker/TaskTracker 机制需要大规模的调整来修复它在可扩展性，内存消耗，线程模型，可靠性和性能上的缺陷。在过去的几年中，hadoop 开发团队做了一些 bug 的修复，但是最近这些修复的成本越来越高，这表明对原框架做出改变的难度越来越大。

为从根本上解决旧 MapReduce 框架的性能瓶颈，促进 Hadoop 框架的更长远发展，从 0.23.0 版本开始，Hadoop 的 MapReduce 框架完全重构，发生了根本的变化。新的 Hadoop MapReduce 框架命名为 MapReduceV2 或者叫 Yarn，其架构图如下图所示：

成熟、通用让Hadoop深得大数据玩家喜爱，即使是在YARN出现之前，在流处理框架林立下，Hadoop仍然被众多机构广泛运用在离线处理之上。借鉴于Mesos，MapReduce获得新生，YARN提供了更加优秀的资源管理器，让Storm等流处理框架同样可以运行在Hadoop集群之上；但是别忘记，Hadoop有着远比Mesos成熟的社区。从兴起到唱衰再到兴起，这头搬运大数据的大象已更加成熟、稳重，同时我们也相信，在未来container等属性加入后，Hadoop生态系统必将发扬光大。

课程介绍

本课程详细讲解了Hadoop 2.0架构、部署以及YARN，并讲解了运行在YARN上主要的计算框架，包括Spark、Storm和Tez

课程针对人群

1、本课程适合于有一定java基础知识，对数据库和sql语句有一定了解，熟练使用linux系统的技术人员，特别适合于想换工作或寻求高薪职业的人士

2、最好有Greenplum Hadoop大数据基础，学习过北风课程《Greenplum 分布式数据库开发入门到精通》、《全面深入Greenplum Hadoop大数据分析平台》为最佳

课程大纲

Hadoop 2.0（6课时）

Hadoop 2.0产生背景

Hadoop 2.0基本构成

HDFS 2.0

MapReduce 2.0

Hadoop 2.0安装配置

集群测试

YARN资源管理系统（4课时）

YARN产生背景

YARN基本设计思想

YARN基本架构

YARN工作流程

YARN通信协议

YARN容错

YARN资源调度机制

YARN支持的计算框架（Storm，Tez，Spark）（11课时）

以YARN为核心的生态系统

Storm基本概念

Storm流式计算框架

基于YARN的Storm架构

YARN-Storm部署

Storm On YARN服务

Apache Tez介绍

Tez特点

Tez数据处理引擎

DAGAppMaster实现

Tez优化机制

Tez应用场景

Tez部署

什么是Spark

Spark生态系统

Spark的核心--RDD和Lineage

RDD的存储、容错机制、内部设计及数据模型

Spark调度框架

Spark的分布式部署方式

基于Mesos的Spark模式

基于YARN的Spark模式

Spark的独立模式部署

Spark的YARN模式部署

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航