您的位置：首页 > 编程语言

GPGPU OpenCL/CUDA 高性能编程的10大注意事项

2014-03-30 21:24 429 查看

1.展开循环

　　如果提前知道了循环的次数，可以进行循环展开，这样省去了循环条件的比较次数。但是同时也不能使得kernel代码太大。

　　循环展开代码例子：

#include<stdio.h>
int main(){
int i=4;
#define EXP i
printf("EXP=%d\n",EXP);

#define COUNT i
printf("COUNT=%d\n",COUNT);
getchar();
return 0;
}

View Code
8.对于(a*b+c)操作，尽量使用 fma function

　　如果定义了“FP_FAST_FMAF”宏，就可以使用函数fma(a,b,c)精确的计算a*b+c。函数fma(a,b,c)的执行时间小于或等于计算a*b+c。

9.在program file 文件中对非kernel的函数使用inline

　　inline修饰符告诉编译器在调用inline函数的地方，使用函数体替换函数调用。虽然会使得编译后的代码占用memory增加，但是省去了函数调用时上下、函数调用栈的切换操作，节省时间。

10.避免分支预测惩罚，应该尽量使得条件判断为真的可能性大

　　现代处理器一般都会进行“分支预测”，以便更好的提前“预取”下一条要执行的指令，使得“取指令、译码分析、执行、保存”尽可能的并行。

　　在“分支预测”出错时，提前取到的指令，不是要执行的指令，就需要根据跳转指令，进行重新取指令，就是“分支预测惩罚”。

　　看如下的代码：

#include<stdio.h>
int main()
{
int i=1;
int b=0;
if(i == 1)
b=1;
else
b=0;
return 1;
}

　　对应的汇编代码：

　　

　　(movl 赋值，cmpl 比较，jne 不等于跳转，jmp 无条件跳转)

　　从上面的汇编指令代码看出，如果比较(<main+24>)结果相等，则执行<main+26>也就是比较指令的下一条指令，对应b=1顺序执行；如果比较(<main+24>)结果不相等，则执行跳转到<main+35>，不是顺序执行。

　　当然，有的处理器可能会根据以往“顺序执行”与“跳转执行”的比例来进行分支预测，但是这也是需要积累的过程。况且并不是，每个处理器多能这样只能。

[b]本文：/article/4813977.html[/b]

　　最后，上面的10个tips，能过提升kernel函数的性能，但是你应该进行具体的性能分析知道程序中最耗时的地方在哪里。当然了，只有通过实验才能真正学会OpenCL高性能编程。

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航