Spark钨丝计划:让火花(Spark)更接近灯丝(Rare Metal)详解(3)
2016-07-23 22:12
288 查看
本文主要内容包括:
1,到底什么是page
2,page具体的两种 实现方式
3,page使用源码详解
一:Tungsten中到底什么是Page?
1, 在Spark其实不存在Page这个类的。Page是一种数据结构(类似于Stack,List等),从OS层面上讲,Page代表了一个内存块,在Page里面可以存放数据,在OS中会存放很多不同的Page,当要获得数据的时候首先要定位具体是哪个Page中的数据,找到该Page之后从Page中根据特定的规则(例如说数据的offset和length)取出数据。
2,到底什么是Spark中的Page呢?
在阅读源码的时候,细致研究MemoryBlock.java,MemoryBlock代表了一个Page的对象。
3, 其中:Nullable:可以为空。为什么?Page代表了具体的内存区域以及内存里面具体的数据,Page中的数据可能是On-heap的数据,也可能是Off-heap中的数据。如果是On-heap则有对象,但是Off-heap的话就没有对象。所以用@Nullable,将对象设置为空。
其中offset:偏移量。MemoryBlock封装了Off-heap和On-heap。
3,On-heap和Off-heap寻址方式:
On-heap:先找到对象,然后再找索引。
Off-heap:根据地址找到索引。
4, Page可以定位到数据,然后又知道数据的偏移量OffSet之后怎么访问数据?这时候需要length,但是length并不知道,所以此时的长度设定为固定的,设置固定长度的length。
二:如何使用Page?
1, 在TaskMemoryManager中,通过封装Page来定位数据,定位的时候如果是On-heap的话,则先找到对象,然后对象中通过offset来具体定位地址,而如果是Off-heap的话,则直接定位。
逻辑地址:Pagenumber由13个bit组成,51bit组成Offset
2,如果是On-heap的方式:内存的分配是是由heapMemoryAllocator完成的。
long[] array = new long[(int)((size+7)/8)];
内存对齐,array里面都是地址,因为GC的时候对象的地址会发生变化,因此就需要
为了获得对象的引用。也就是对象的地址。
return new MemoryBlock(array, Platform.LONG_ARRAY_OFFSET, size);
//array里面保存的都是地址,而LONG_ARRAY_OFFSET是偏移量,因此二者就可以定位到绝对地址,然后根据size就可以确定数据。
}
3,如果是Off-heap的方式:内存的分配是是由UnsafeMemoryAllocator完成的。
// 对象的引用是null
//address是绝对地址
4, 一个关键的问题是如何确定数据呢?这个时候就需要涉及具体的算法。
针对Task是怎么管理内存的?
TaskMemoryManager基于Page的概念屏蔽掉了底层是On-heap或者是Off-heap的概念,使用逻辑地址做指针,通过逻辑地址来具体定位到我们的记录具体在Page中的位置,
逻辑地址的表示:long类型的64bit的一个数字来表示的。
本博客内容来自于 : 简介: 王家林:DT大数据梦工厂创始人和首席专家. 联系邮箱18610086859@126.com 电话:18610086859 QQ:1740415547 微信号:18610086859
1,到底什么是page
2,page具体的两种 实现方式
3,page使用源码详解
一:Tungsten中到底什么是Page?
1, 在Spark其实不存在Page这个类的。Page是一种数据结构(类似于Stack,List等),从OS层面上讲,Page代表了一个内存块,在Page里面可以存放数据,在OS中会存放很多不同的Page,当要获得数据的时候首先要定位具体是哪个Page中的数据,找到该Page之后从Page中根据特定的规则(例如说数据的offset和length)取出数据。
2,到底什么是Spark中的Page呢?
在阅读源码的时候,细致研究MemoryBlock.java,MemoryBlock代表了一个Page的对象。
3, 其中:Nullable:可以为空。为什么?Page代表了具体的内存区域以及内存里面具体的数据,Page中的数据可能是On-heap的数据,也可能是Off-heap中的数据。如果是On-heap则有对象,但是Off-heap的话就没有对象。所以用@Nullable,将对象设置为空。
其中offset:偏移量。MemoryBlock封装了Off-heap和On-heap。
3,On-heap和Off-heap寻址方式:
On-heap:先找到对象,然后再找索引。
Off-heap:根据地址找到索引。
4, Page可以定位到数据,然后又知道数据的偏移量OffSet之后怎么访问数据?这时候需要length,但是length并不知道,所以此时的长度设定为固定的,设置固定长度的length。
二:如何使用Page?
1, 在TaskMemoryManager中,通过封装Page来定位数据,定位的时候如果是On-heap的话,则先找到对象,然后对象中通过offset来具体定位地址,而如果是Off-heap的话,则直接定位。
逻辑地址:Pagenumber由13个bit组成,51bit组成Offset
2,如果是On-heap的方式:内存的分配是是由heapMemoryAllocator完成的。
long[] array = new long[(int)((size+7)/8)];
内存对齐,array里面都是地址,因为GC的时候对象的地址会发生变化,因此就需要
为了获得对象的引用。也就是对象的地址。
return new MemoryBlock(array, Platform.LONG_ARRAY_OFFSET, size);
//array里面保存的都是地址,而LONG_ARRAY_OFFSET是偏移量,因此二者就可以定位到绝对地址,然后根据size就可以确定数据。
}
3,如果是Off-heap的方式:内存的分配是是由UnsafeMemoryAllocator完成的。
// 对象的引用是null
//address是绝对地址
4, 一个关键的问题是如何确定数据呢?这个时候就需要涉及具体的算法。
针对Task是怎么管理内存的?
TaskMemoryManager基于Page的概念屏蔽掉了底层是On-heap或者是Off-heap的概念,使用逻辑地址做指针,通过逻辑地址来具体定位到我们的记录具体在Page中的位置,
逻辑地址的表示:long类型的64bit的一个数字来表示的。
本博客内容来自于 : 简介: 王家林:DT大数据梦工厂创始人和首席专家. 联系邮箱18610086859@126.com 电话:18610086859 QQ:1740415547 微信号:18610086859
相关文章推荐
- /storage/sdcard, /sdcard, /mnt/sdcard 三者的区别
- Dialog的重构+接口回调
- 习题19 函数和变量
- 7.15 编写一个程序,将字符数组s2中的全部字符拷贝到字符数组s1中,不用strcpy函数。拷贝时,'\0'也要拷贝过去,'\0'后面的字符不拷贝。
- 安卓自定义View进阶:Path基本操作
- Java7并发编程--1、线程管理
- StringBuffer和StringBuilder的区别
- DP 问题总结
- HDU 2209 翻纸牌游戏
- css中可以和不可以继承的属性
- 3.6 程序功能同上,只是现在有若干个职员的信息需要读入并计算,利用循环来输入 任意个职员的信息并计算工资
- SASS基础教程
- POJ 1011 Sticks(DFS + 剪枝)
- eclipse大小写转换
- TCP三次握手四次挥手
- 通过一张简单的图,让你彻底地、永久地搞懂JS的==运算
- BestCoder Round #84 1004 hdu 5750 数论
- 爬虫(三)--图片爬虫
- DP问题
- 8086汇编语言自学经验分享 汇编源程序中使用jmp命令修改CS:IP