《数据算法-Hadoop/Spark大数据处理技巧》读书笔记(三)——Order Inverse
2018-01-30 14:36
239 查看
这章的名称叫反转排序,应该说让人非常的迷惑。
这里我觉得一篇Blog对Order Inverse的解释更合理一些(http://blog.csdn.net/hadoop_mapreduce/article/details/39802287),根据这篇文章实际上Order Inverse的实质是由开发者控制框架Partition的规则,来保证框架在Shuffle的时候能够按照期望将会被一起处理的数据Shuffle到同一个节点上。
实现方法,继承Partitioner类,重写getPartition()通过job的setPartitionerClass()方法替换默认的Partitioner。
书里给的相对词频计算在MapReduce的模式下必须使用Order Inverse这种方法,因为需要有做除法运算,所以要保证Key相同的数据要分到一个节点上计算,否则会出现错误。
但是Spark就没有这个问题,不需要通过自定义Partitioner,来达到这种计算效果。
这里我觉得一篇Blog对Order Inverse的解释更合理一些(http://blog.csdn.net/hadoop_mapreduce/article/details/39802287),根据这篇文章实际上Order Inverse的实质是由开发者控制框架Partition的规则,来保证框架在Shuffle的时候能够按照期望将会被一起处理的数据Shuffle到同一个节点上。
实现方法,继承Partitioner类,重写getPartition()通过job的setPartitionerClass()方法替换默认的Partitioner。
书里给的相对词频计算在MapReduce的模式下必须使用Order Inverse这种方法,因为需要有做除法运算,所以要保证Key相同的数据要分到一个节点上计算,否则会出现错误。
但是Spark就没有这个问题,不需要通过自定义Partitioner,来达到这种计算效果。
相关文章推荐
- 《数据算法-Hadoop/Spark大数据处理技巧》读书笔记(一)——二次排序
- 《数据算法-Hadoop/Spark大数据处理技巧》读书笔记(五)——购物篮分析
- 《数据算法-Hadoop/Spark大数据处理技巧》读书笔记(四)——移动平均
- O'Reilly精品图书推荐:数据算法:Hadoop/Spark大数据处理技巧
- 《数据算法-Hadoop/Spark大数据处理技巧》读书笔记(二)——TopN列表
- 《数据机构与算法分析》(Java语言描述)读书笔记(1)---表
- 数据分析师、大数据开发、Hadoop开发工程师、数据挖掘、算法工程师的工资薪水到底怎么样?
- 数据算法-hadoop1 开场白
- 《BIG DATA大数据日知录 架构和算法》读书笔记
- 《大话数据结构》读书笔记(一)——数据结构基础和算法
- Hadoop链式MapReduce、多维排序、倒排索引、自连接算法、二次排序、Join性能优化、处理员工信息Join实战、URL流量分析、TopN及其排序、求平均值和最大最小值、数据清洗ETL、分析气
- 基于Hadoop的并行数据挖掘算法工具箱——Dodo
- [hadoop读书笔记] 第十五章 sqoop1.4.6小实验 - 将mysq数据导入HBASE
- 『算法』读书笔记 1.2数据抽象
- 数据挖掘——概念、模型和算法读书笔记
- 推荐系统中的数据挖掘方法---《推荐系统技术、评估及高效算法》---读书笔记(2)
- 数据算法-hadoop2 二次排序
- hadoop之Kmeans数据挖掘算法实现
- 腾讯公司数据分析岗位的hadoop工作 线性回归 k-means算法 朴素贝叶斯算法 SpringMVC组件 某公司的广告投放系统 KNN算法 社交网络模型 SpringMVC注解方式
- 深入浅出Hadoop Mahout数据挖掘实战(算法分析、项目实战、中文分词技术)