您的位置:首页 > 大数据 > 人工智能

内存数据对齐(翻:Data alignment:straighten up and fly right)

2014-08-04 15:24 399 查看
1.内存访问粒度

程序员习惯性把内存当做简单的字节数组,在c语言和它之后的语言中,char *代表“a block of memory”,甚至java有byte[]的类型去代表原始内存。程序员看到的内存如下图所示:



然而你的电脑处理器不会按照字节读或者写内存。相反,它访问内存是以2-,4-,8-,16-,32-字节为块。我们将处理器访问内存的大小叫做内存的访问粒度。处理器看到的内存如下图所示:



程序员认为的内存和现代处理器实际用内存工作的方式之间的不同,是本文探讨的有趣问题。

如果你不了解和解决数据对齐问题,以下情况都是可能发生的:

1.你的软件运行越来越慢

2.你的应用程序将被锁定

3.你的操作系统将会崩溃

4.你的软件将会产生错误结果

2.内存对齐的基本知识

为了更好地阐述对齐背后的原理,我们做一个task检测,了解内存怎么被处理器内存访问粒度影响。task很简单:首先从地址0开始读4个字节到处理器的寄存器。然后从地址1读4个字节到相同寄存器:



这符合天真的程序员所认为的内存工作模式:它要花四次内存访问从地址0开始读取,正如从地址1开始读取。现在看看如果处理器以2个字节为粒度将发生什么?



当从地址0开始读取时,2字节粒度读取的处理器将花费1字节粒度读取的处理器一半的内存访问次数。因为每一个内存访问都会引起固定的开销,最小化访问的次数能够帮助提升性能。

然而,从地址1开始读取会发生什么呢?因为地址不均匀地落在处理器的内存访问边界,处理器就有额外的工作要做。这样的地址就称为不对齐地址。因为地址1是不对齐的,2字节粒度的处理器就必须要执行额外的内存访问,减慢了操作。

最后,我们将测试4字节内存访问粒度的处理器将发生什么?



4字节内存访问粒度的处理器会一次性读取4个bytes,从一个对齐地址。同样值得注意的是,从一个不对齐地址读取将会加倍内存访问次数。接下来将具体解释处理器是怎样从一个不对齐地址进行内存读取操作的。

Lazy 处理器

当一个处理器要访问一个不对齐地址的时候,必须要执行一些技巧。回到刚刚使用4字节粒度的处理器从地址1开始在内存中读取4字节。你能够精确计算出什么需要被做:



处理器需要读取非对齐地址所在的第一块,然后从第一块中移除不想要的字节。然后它需要非对齐地址的第二块,移除它的某些信息,最终两个块的内容合并放置在寄存器中,这需要花费大量的工作。

一些处理器是愿意这么做的。

原始的68000是两字节为粒度的处理器,它缺乏处理不对齐地址的电路。当面对不对齐的地址,处理器将会抛出异常。原始的MAC OS也不能很友好地解决这个异常,通常需要用户重启系统。

在之后的680x0系列的处理器中,比如68020,解决了这个限制,执行必要的工作。这就解释了为什么一些老的软件可以运行在68020上,但在68000上却会崩溃。

PowerPC采用了混合方式。每一种POWERPC处理器对不对齐的32位整型访问都有支持,同时,它一样对不对齐地址访问要付出一点性能补偿,但是这是很小的。

在另一方面,现代PowerPC对于不对齐的64位浮点型访问缺乏硬件支持,当从内存中访问不对齐的浮点数,现代的PowerPC处理器会丢出异常同时操作系统会在软件层次执行对齐。在软件层次执行对齐是比在硬件层次执行对齐更慢的。

总结:
许多实际的计算机系统对基本类型数据在内存中存放的位置有限制,它们会要求这些数据的首地址的值是某个数k(通常它为4或8)的倍数,这就是所谓的内存对齐。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: