大数据:大规模文件系统及map-reduce
2013-02-23 16:14
246 查看
大数据:大规模文件系统及map-reduce
下面是我看《大数据—互联网大规模数据挖掘与分布式处理》一书第二章的总结。
1 分布式文件系统:distributed file system
文件多副本存储,计算任务分多个,容错。
文件非常大(TB),文件极少更新
2 Map-reduce:
a 多个map任务,每个任务输入是DFS的一个或者多个文件块。
b 主控制器 从每个map任务中收集一系列键值对
c reduce任务每次作用于一个键
经典任务:统计多个文本中单词的频率。
节点失效时要有相应的容错组织
map-reduce应用:矩阵向量乘法,关系代数运算(选择,投影,并交差,自然连接,分组聚合)
map-reduce扩展:Pregel系统(递归失效解决方案)
Hadoop:HDFS与map-reduce结合实现
工作流系统:map-reduce一般化为支持任意无环函数集系统,每个函数都可实例化为任意数目的任务,每个任务在一部分数据上执行对应函数
递归工作流:递归关系函数集,系统不保证节点失效,可在计算工作过程中设立检查点
通信开销模型:map-reduce小任务开销简单,主要开销在于数据从创建到使用的开销。
多路链接,星形连接。
下面是我看《大数据—互联网大规模数据挖掘与分布式处理》一书第二章的总结。
1 分布式文件系统:distributed file system
文件多副本存储,计算任务分多个,容错。
文件非常大(TB),文件极少更新
2 Map-reduce:
a 多个map任务,每个任务输入是DFS的一个或者多个文件块。
b 主控制器 从每个map任务中收集一系列键值对
c reduce任务每次作用于一个键
经典任务:统计多个文本中单词的频率。
节点失效时要有相应的容错组织
map-reduce应用:矩阵向量乘法,关系代数运算(选择,投影,并交差,自然连接,分组聚合)
map-reduce扩展:Pregel系统(递归失效解决方案)
Hadoop:HDFS与map-reduce结合实现
工作流系统:map-reduce一般化为支持任意无环函数集系统,每个函数都可实例化为任意数目的任务,每个任务在一部分数据上执行对应函数
递归工作流:递归关系函数集,系统不保证节点失效,可在计算工作过程中设立检查点
通信开销模型:map-reduce小任务开销简单,主要开销在于数据从创建到使用的开销。
多路链接,星形连接。
相关文章推荐
- Hadoop的Map和Reduce中能不能打开HDFS文件系统中的文件?
- 动手改造Ibatis,使其支持文件系统存储数据列 之 看我如何给ResultMap增加属性
- 大数据_hive_map-reduce个数及合并小文件
- 使用 /sys 文件系统访问 Linux 内核:比/proc 更为理想的访问内核数据的途径
- C++文本查询程序 不要定义类和智能指针管理数据 C++Primer练习12.28 使用vector,map,set容器保存来自文件的数据并生成查询结果
- mapreduce往hbase插入数据(有map有reduce)
- APUE读书笔记 之 系统数据文件和信息
- 《UNIX环境高级编程》六系统数据文件和信息读书笔记
- apue学习第九天——系统数据文件和信息(第六章)
- 分布式基础学习【二】 —— 分布式计算系统(Map/Reduce)
- 一共81个,开源大数据处理工具汇总:查询引擎、流式计算、迭代计算、离线计算、键值存储、表格存储、文件存储、资源管理、日志收集系统、消息系统、分布式服务、集群管理、基础设施、搜索引擎、数据挖掘=监控
- (07)数据文件恢复之一通过SqlPlus重建恢复(文件系统与ASM)
- 网络文件系统中的数据缓存
- linux c编程:系统数据文件和信息
- windows电脑系统重装前需备份那些东西(文件内容数据)
- hadoop2.7.2学习笔记05-hadoop文件系统API定义-hadoop数据输入流类FSDataInputStream
- C++文本查询程序 C++Primer练习12.28 使用vector,map,set容器保存来自文件的数据并生成查询结果
- DataNode之文件系统数据集FsVolumeList
- cdh集群节点系统文件损坏,重装系统恢复Hdfs数据
- 【分享】我们用了不到200行代码实现的文件日志系统,极佳的IO性能和高并发支持,附压力测试数据