您的位置：首页 > 其它

MapReduce概述和体系结构----学习笔记

2018-03-16 16:13 267 查看

传统并行计算框架和MapReduce对比：

高度抽象为两个函数：map函数和Reduce函数；
策略：分而治之（即：任务结果不依赖其他计算结果）；
理念：计算向数据靠拢，而不是数据向计算靠拢；因为：大数据传输开销巨大；
Split（分片）：一个存储在分布式文件系统中的大规模数据集，会被切分成许多独立的分片（split），这些分片可以被多个Map任务并行处理；
架构：Master/Slave架构；Master上运行JobTracker，Slave上运行TaskTracker；
Hadoop框架是用Java实现的，但是，MapReduce应用程序则不一定要用Java来写；

体系结构：Client、JobTracker、TaskTracker、Task；
Client：
用户编写的MapReduce程序通过Client提交到JobTracker端；
用户可通过Client提供的一些借口查看作业运行状态；
JobTracker：
JobTracker负责资源监控和作业调度；
JobTracker监控所有TaskTracker与Job的监看状况，一旦发现失败，就讲相应的任务转移到其他节点上；
JobTracker会跟踪任务的执行进度、资源使用量的等信息，并将这些信息告诉任务调度器（TaskScheduler），而调度器会在资源出现空闲时，选择合适的任务去使用这些资源；
TaskTracker：
TaskTracker 会周期性地通过“心跳”将本节点上资源的使用情况和任务的运行进度汇报给JobTracker，同时接收JobTracker 发送过来的命令并执行相应的操作（如启动新任务、杀死任务等）；

TaskTracker 使用“slot”等量划分本节点上的资源量（CPU、内存等）。一个Task 获取到一个slot 后才有机会运行，而Hadoop调度器的作用就是将各个TaskTracker上的空闲slot分配给Task使用。slot 分为Map slot 和Reduce slot 两种，分别供MapTask 和Reduce Task 使用（slot为单位资源，1.0不可互用，2.0有修改）
Task：
Task 分为Map Task 和Reduce Task 两种，均由TaskTracker 启动；

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签： MapReduce

相关文章推荐

新的分享

章节导航