如何编写100% cache miss的C程序
2013-12-05 10:32
183 查看
http://blog.csdn.net/qianlong4526888/article/details/12872819
今天为了做ppt讲解如何使用oprofile(以测试cache miss为例),要写一个cache miss的小例子,以Level 2 data cache为例,具体步骤见下文。
1、查看你的系统cache大小:
$ cat /sys/devices/system/cpu/cpu0/cache/index2/size
我的系统是centos 5.8。以上命令是查看Level 2cache的大小,在我的服务器上是256k,记住这个数,写程序时要用。
2、查看cache line的大小:
$
cat /sys/devices/system/cpu/cpu0/cache/index2/coherency_line_size
我的服务器上是64,单位是bytes,记住这个数,也要用到。
3、编写测试程序cache.c:
[cpp]
view plaincopyprint?
int matrix[8192][16];
//4*8192*16=2^18=512k bytes
void bad_access()
{
int k, j, sum = 0;
for(k = 0; k < 16; k++)
for(j = 0; j < 8192; j++)
sum += matrix[j][k];
}
int main()
{
int i;
for(i = 0; i< 5000000; i++)
bad_access();
return 0;
}
以上代码虽然简单,但要理解需要懂cache的简单结构及原理:cache是以64字节或者128字节为一行的,分为多组(或者叫多路),每次发生cache miss取数据时,cache会按照cache line为单位(这里也就是一次取64字节)从内存取数据。
第一步得知level 2 data cache总大小是256k,第二步得到每个cache line是64字节,所以,level2 data cache共256k/64=2^12=4096行。
想象一个表,每行64字节,一共4096行,共256k大小,这就是我们cache的简单结构。为了保证每次取数据都会发生miss,我们必须以>=64字节的步长取数据。
首先创建一个512K大的数组,要比cache大一倍。如果数组也是256k,当第一次循环结束,数组用完后再次从头开始取数据时,cache就不再被替换,所以不会再发生cache miss,为了保证每次取数据都要发生cache miss,数组必须至少是cache大小的两倍及以上。
循环读取数组中的数据,每次读一个int大小,然后加64,再读取下一个cache line的数据,循环直到数组数据全部取出。
oprofile统计cache miss有个最低限制(我的0.9.8版本是2000000次),所以发生的miss数太小的话是娶不到的,所以加大循环次数至5000000。
4、至此可以进行100% cache miss的测试了,但是经过测试发现 cache miss压根没发生,百思不得其解,请教boss后才想起来,x86有个stream buffer硬件预取器,如果你取数据非常规律,那么硬件预取器经过训练后,会在你真正取数据之前,将你要的数据直接放到cache中。所以,要在至强处理器的服务器上做cache miss测试,必须重启系统后,关闭硬件预取器。否则就要修改程序,写出真正随机取数据的代码,但是这无法保证cache
miss 率是100%,只能保证cache 命中率比较低而已。
5、SPEC CPU2006中的mcf发生cache miss rate很高,可以用其做测试。
今天为了做ppt讲解如何使用oprofile(以测试cache miss为例),要写一个cache miss的小例子,以Level 2 data cache为例,具体步骤见下文。
1、查看你的系统cache大小:
$ cat /sys/devices/system/cpu/cpu0/cache/index2/size
我的系统是centos 5.8。以上命令是查看Level 2cache的大小,在我的服务器上是256k,记住这个数,写程序时要用。
2、查看cache line的大小:
$
cat /sys/devices/system/cpu/cpu0/cache/index2/coherency_line_size
我的服务器上是64,单位是bytes,记住这个数,也要用到。
3、编写测试程序cache.c:
[cpp]
view plaincopyprint?
int matrix[8192][16];
//4*8192*16=2^18=512k bytes
void bad_access()
{
int k, j, sum = 0;
for(k = 0; k < 16; k++)
for(j = 0; j < 8192; j++)
sum += matrix[j][k];
}
int main()
{
int i;
for(i = 0; i< 5000000; i++)
bad_access();
return 0;
}
int matrix[8192][16]; //4*8192*16=2^18=512k bytes void bad_access() { int k, j, sum = 0; for(k = 0; k < 16; k++) for(j = 0; j < 8192; j++) sum += matrix[j][k]; } int main() { int i; for(i = 0; i< 5000000; i++) bad_access(); return 0; }
以上代码虽然简单,但要理解需要懂cache的简单结构及原理:cache是以64字节或者128字节为一行的,分为多组(或者叫多路),每次发生cache miss取数据时,cache会按照cache line为单位(这里也就是一次取64字节)从内存取数据。
第一步得知level 2 data cache总大小是256k,第二步得到每个cache line是64字节,所以,level2 data cache共256k/64=2^12=4096行。
想象一个表,每行64字节,一共4096行,共256k大小,这就是我们cache的简单结构。为了保证每次取数据都会发生miss,我们必须以>=64字节的步长取数据。
首先创建一个512K大的数组,要比cache大一倍。如果数组也是256k,当第一次循环结束,数组用完后再次从头开始取数据时,cache就不再被替换,所以不会再发生cache miss,为了保证每次取数据都要发生cache miss,数组必须至少是cache大小的两倍及以上。
循环读取数组中的数据,每次读一个int大小,然后加64,再读取下一个cache line的数据,循环直到数组数据全部取出。
oprofile统计cache miss有个最低限制(我的0.9.8版本是2000000次),所以发生的miss数太小的话是娶不到的,所以加大循环次数至5000000。
4、至此可以进行100% cache miss的测试了,但是经过测试发现 cache miss压根没发生,百思不得其解,请教boss后才想起来,x86有个stream buffer硬件预取器,如果你取数据非常规律,那么硬件预取器经过训练后,会在你真正取数据之前,将你要的数据直接放到cache中。所以,要在至强处理器的服务器上做cache miss测试,必须重启系统后,关闭硬件预取器。否则就要修改程序,写出真正随机取数据的代码,但是这无法保证cache
miss 率是100%,只能保证cache 命中率比较低而已。
5、SPEC CPU2006中的mcf发生cache miss rate很高,可以用其做测试。
相关文章推荐
- 如何编写100% cache miss的C程序
- 如何编写100% cache miss的C程序
- 如何用CodeBlocks分多个文件编写一个C++程序
- 破解的iphone上, 如何编写具有root权限的程序
- 如何更有效的编写程序
- 支付1000元咨询费,如何让PB编写的程序不能被反编译?
- 如何在Linux中编写和运行C程序
- 如何用Android NDK编写可执行程序
- 如何编写C++程序
- sevlet是单线程还是多线程,在多线程下如何编写安全的servlet程序
- [编写高质量代码:改善java程序的151个建议]建议42,如何让一个工具类不可实例化
- 关于如何编写与调用java的JNI程序
- 如何在eclipse中编写好程序,然后打包成jar文件,在hadoop分布式集群上运行
- 如何编写 PL/SQL 程序
- 如何编写并配置局域网内FTP服务器程序
- 如何编写上传(PC->AS)和下载(AS->PC)程序示例
- C#编写程序操作数据库如何防止SQL注入漏洞的发生
- 利用PROGISP实现ARDUINO IDE编写的程序的下载以及如何把AVR单片机做成ARDUINO板
- 微软软件项目开发方法--如何编写优秀的程序( 主讲:林斌 )视频笔记
- 如何使用MVC编写Winform程序代码