Hadoop 高级程序设计(一)---复合键 自定义输入类
2014-10-06 12:18
183 查看
Hadoop 高级程序设计(一)---复合键 自定义输入类型
简介:
在大数据处理的基本方法上,对于相互间计算的依赖性不大的数据,mapreduce采用分治的策略进行处理,将大的问题划分成小的问题进行求解,使得问题变得简单可行,同时在处理问题上面,MapReduce框架隐藏了很多的处理细节,将数据切分,任务调度,数据通信,容错,负载均衡.....交给了系统负责,对于很多问题,只需要采取框架的缺省值完成即可,用户只需完成设计map函数很reduce函数即可。
复合键
在一般的情况下只需要使用简单的<key,value>对即可,但是在一些复杂的情况下可以完成很多有效的处理,可以减少网络数据通信开销,提高程序计算效率。例子:倒排索引 文档检索系统中最常用的数据结构,广泛的应用与全文检索,存储某个单词或者词组在一个文挡或是多个文档中的存储位置的映射,根据内容来查找文档的方式。由于不是根据文档查找内容 而是根据内容来查找文档,进行相反的操作,继而成为倒排索引。
代码:
用户自定义数据类型
Hadoop中提供了很多的内置数据类型,但是在解决一些复杂的问题,这些内置的简单数据类型很难满足用户的需求,需要自定义数据类型。用户在自定义数据类型的时候,需要实现Writable接口,以便数据可以被序列化后完成网络传输或是文件的输入输出。此外,要是数据需要作为主键使用或者需要比较数值大小时,需要实现WritableComparable接口。例子:
相关文章推荐
- Hadoop 高级程序设计(一)---复合键 自定义输入类型
- Hadoop 高级程序设计(二)---自定义输入输出格式
- Hadoop 高级程序设计(三)---自定义Partition和Combiner
- hadoop编程小技巧(5)---自定义输入文件格式类InputFormat
- Hadoop基础教程之高级编程【自定义每个环节的实现】
- Hadoop之自定义输入数据(一)
- Hadoop 高级程序设计(四)---组合式的MapReduce作业
- hadoop编程小技巧(5)---自定义输入文件格式类InputFormat
- Hadoop MapReduce编程 API入门系列之自定义多种输入格式数据类型和排序多种输出格式(十一)
- hadoop自定义文件的输入格式
- 自定义 hadoop MapReduce InputFormat 切分输入文件
- JavaWeb高级程序设计——自定义标签
- 自定义hadoop map/reduce输入文件切割InputFormat 更改输入value的分隔符
- Hadoop自定义InputFormat以实现多文件输入 MultiFileInputFormat
- Hadoop 自定义数据类型及输入格式
- Hadoop自定义数据类型和输入格式
- hadoop自定义输入格
- 【转】Hadoop自定义输入与输出格式
- Hadoop 实例15 MultipleInputs实战2:多种自定义文件格式的文件输入处理
- Hadoop(十):简单了解Hadoop数据类型,输入输出格式及用户如何自定义。