您的位置:首页 > 运维架构

hadoop主要学什么?hadoop学习总结

2018-03-13 15:13 169 查看
Hadoop是在分布式服务器集群上存储海量数据并运行分布式分析应用的一个平台,其核心部件是HDFS与MapReduce。HDFS是一个分布式文件系统,可对数据系统进行分布式储存读取;MapReduce是一个计算框架,通过对计算任务的拆分,再根据任务调度器,对任务进行分布式计算。Hadoop是大数据开发必不可少的框架技术,因此,想要学好大数据,必须要掌握Hadoop相关知识,那么,hadoop主要学什么呢?一、Hadoop环境搭建1. Hadoop生态环境介绍2. Hadoop云计算中的位置和关系3. 国内外Hadoop应用案例介绍4. Hadoop概念、版本、历史5. Hadoop核心组成介绍及hdfs、mapreduce体系结构6. Hadoop独立模式安装和测试7. Hadoop的集群结构8. Hadoop伪分布的详细安装步骤9. 通过命令行和浏览器观察Hadoop10. Hadoop启动脚本分析11. Hadoop完全分布式环境搭建12. Hadoop安全模式、回收站介绍二、HDFS体系结构和Shell以及Java操作1. HDFS底层工作原理2. HDFSdatanode,namenode详解3. 单点故障(SP0F)和高可用(HA)4. 通过API访问HDFS5. 常用压缩算法介绍和安装使用6. Maven介绍和安装,eclipse中使用Maven,搭建Maven本地仓库三、Mapreduce学习1. Mapreduce四个阶段介绍2. Job、Task介绍3. 默认工作机制4. 创建MR应用开发,获取年度的最高气温5. 在Windows上运行MR作业6. Mapper、Reducer7. InputSplit和OutputSplit8. Shuffle:Sort,Partitioner,Group,Combiner9. 通过计数器调试程序10. 在Windows安装Hadoop11. 在eclipse安装Hadoop插件,访问Hadoop资源12. 在eclipse中编写ant脚本13. YARN调度框架事件分发机制14. 远程调试资源管理器15. Hadoop的底层google ProtoBuf的协议分析16. Hadoop底层IPC原理和RPC四、Hadoop高可用-HA1. Hadoop2.x集群结构体系介绍2. Hadoop2.x集群搭建3. NameNode的高可用性(HA)4. HDFS Federation5. ResourceManager的高可用性(HA)6. Hadoop集群常见问题和解决办法
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签:  hadoop学习总结