GPGPU OpenCL/CUDA 高性能编程的10大注意事项
2014-03-30 21:24
429 查看
1.展开循环
如果提前知道了循环的次数,可以进行循环展开,这样省去了循环条件的比较次数。但是同时也不能使得kernel代码太大。
循环展开代码例子:
View Code
8.对于(a*b+c)操作,尽量使用 fma function
如果定义了“FP_FAST_FMAF”宏,就可以使用函数fma(a,b,c)精确的计算a*b+c。函数fma(a,b,c)的执行时间小于或等于计算a*b+c。
9.在program file 文件中对非kernel的函数使用inline
inline修饰符告诉编译器在调用inline函数的地方,使用函数体替换函数调用。虽然会使得编译后的代码占用memory增加,但是省去了函数调用时上下、函数调用栈的切换操作,节省时间。
10.避免分支预测惩罚,应该尽量使得条件判断为真的可能性大
现代处理器一般都会进行“分支预测”,以便更好的提前“预取”下一条要执行的指令,使得“取指令、译码分析、执行、保存”尽可能的并行。
在“分支预测”出错时,提前取到的指令,不是要执行的指令,就需要根据跳转指令,进行重新取指令,就是“分支预测惩罚”。
看如下的代码:
对应的汇编代码:
(movl 赋值,cmpl 比较,jne 不等于跳转,jmp 无条件跳转)
从上面的汇编指令代码看出,如果比较(<main+24>)结果相等,则执行<main+26>也就是比较指令的下一条指令,对应b=1顺序执行;如果比较(<main+24>)结果不相等,则执行跳转到<main+35>,不是顺序执行。
当然,有的处理器可能会根据以往“顺序执行”与“跳转执行”的比例来进行分支预测,但是这也是需要积累的过程。况且并不是,每个处理器多能这样只能。
[b]本文:/article/4813977.html[/b]
最后,上面的10个tips,能过提升kernel函数的性能,但是你应该进行具体的性能分析知道程序中最耗时的地方在哪里。当然了,只有通过实验才能真正学会OpenCL高性能编程。
如果提前知道了循环的次数,可以进行循环展开,这样省去了循环条件的比较次数。但是同时也不能使得kernel代码太大。
循环展开代码例子:
#include<stdio.h> int main(){ int i=4; #define EXP i printf("EXP=%d\n",EXP); #define COUNT i printf("COUNT=%d\n",COUNT); getchar(); return 0; }
View Code
8.对于(a*b+c)操作,尽量使用 fma function
如果定义了“FP_FAST_FMAF”宏,就可以使用函数fma(a,b,c)精确的计算a*b+c。函数fma(a,b,c)的执行时间小于或等于计算a*b+c。
9.在program file 文件中对非kernel的函数使用inline
inline修饰符告诉编译器在调用inline函数的地方,使用函数体替换函数调用。虽然会使得编译后的代码占用memory增加,但是省去了函数调用时上下、函数调用栈的切换操作,节省时间。
10.避免分支预测惩罚,应该尽量使得条件判断为真的可能性大
现代处理器一般都会进行“分支预测”,以便更好的提前“预取”下一条要执行的指令,使得“取指令、译码分析、执行、保存”尽可能的并行。
在“分支预测”出错时,提前取到的指令,不是要执行的指令,就需要根据跳转指令,进行重新取指令,就是“分支预测惩罚”。
看如下的代码:
#include<stdio.h> int main() { int i=1; int b=0; if(i == 1) b=1; else b=0; return 1; }
对应的汇编代码:
(movl 赋值,cmpl 比较,jne 不等于跳转,jmp 无条件跳转)
从上面的汇编指令代码看出,如果比较(<main+24>)结果相等,则执行<main+26>也就是比较指令的下一条指令,对应b=1顺序执行;如果比较(<main+24>)结果不相等,则执行跳转到<main+35>,不是顺序执行。
当然,有的处理器可能会根据以往“顺序执行”与“跳转执行”的比例来进行分支预测,但是这也是需要积累的过程。况且并不是,每个处理器多能这样只能。
[b]本文:/article/4813977.html[/b]
最后,上面的10个tips,能过提升kernel函数的性能,但是你应该进行具体的性能分析知道程序中最耗时的地方在哪里。当然了,只有通过实验才能真正学会OpenCL高性能编程。
相关文章推荐
- GPGPU OpenCL/CUDA 高性能编程的10大注意事项
- GPGPU OpenCL/CUDA 高性能编程的10大注意事项
- GPGPU OpenCL/CUDA 高性能编程的10大注意事项
- 【并行计算-CUDA开发】GPGPU OpenCL/CUDA 高性能编程的10大注意事项
- CUDA编程注意事项两则
- Android高性能编程注意事项
- 使用windows API进行编程时候的注意事项
- 网页编程中showModalDialog注意事项
- OpenCV编程注意事项
- 编程中注意事项
- C语言嵌入式系统编程注意事项
- 编程健壮性注意事项
- android中UDP编程的注意事项
- MFC多线程编程注意事项
- UDP编程特点注意事项
- 不同内存空间(data xdata bdata)定义变量在51单片机编程中的注意事项
- Linux下TCP编程的注意事项-陈硕《网络编程实战》总结
- 【高性能编程】环境配置--cuda 环境配置 以及 您当前未连接到NVIDIA GPU的解决办法
- 多个串口通讯编程注意事项
- 兼容浏览器开发笔记-html标签编程注意事项