CentOS6中OpenMP的运行时间或运行性能分析
2013-12-14 11:45
267 查看
OpenMp作为单机多核心共享内存并行编程的开发工具,具有编码简洁等,容易上手等特点。
关于OpenMP的入门,博主饮水思源(见参考资料)有了深入浅出,循序渐进的分析。做并行开发,做性能分析是永远逃避不开的话题,性能问题的研究一切基于系统的计时。本人参考饮水思源的代码在双核与四核机器的操作过程中,发现clock()针对并行运行时间计时不准的问题,运行结果显示并行方式和串行的时间基本相近,使得并行方式在时间计数上并未有明显优势。本文就其运行时间统计做相关分析,通过改进的方式,对时间进行了判断,首先在For循环中加入打印语句判断是否多核执行;然后判断系统确实是多核执行后,在For循环中加入等待函数sleep,运行程序并人工计时,这时的时间在双核机器并行比串行要快近两倍,四核机器并行时间比串行快近四倍。所以可知clock()不适合做并行程序的计时工具,需要找到相关的替代。
CentOS6.5 的GCC版本默认4.4.7,原生支持OpenMP编译
[root@localhost MPDemo]# gcc --version
gcc (GCC) 4.4.7 20120313 (Red Hat 4.4.7-4)
通过编译命令编译源文件为:
g++ -fopenmp SFor.cpp -o sfor.out
[root@localhost MPDemo]# g++ -fopenmp PFor.cpp -o pfor.out
[root@localhost MPDemo]# ./sfor.out
sec num: 1386991744; nsec num: 676508350
sec num: 1386991748; nsec num: 245595277
time: 3570ms
g++ -fopenmp PFor.cpp -o pfor.out
[root@localhost MPDemo]# ./pfor.out
cpu numbers: 2
sec num: 1386991842; nsec num: 452768086
sec num: 1386991844; nsec num: 527629070
time: 2074
a、CLOCK_REALTIME:系统实时时间,随系统实时时间改变而改变
b、CLOCK_MONOTONIC,从系统启动这一刻起开始计时,不受系统时间被用户改变的影响
c、CLOCK_PROCESS_CPUTIME_ID,本进程到当前代码系统CPU花费的时间
d、CLOCK_THREAD_CPUTIME_ID,本线程到当前代码系统CPU花费的时间
本文默认采用CLOCK_REALTIME,即可实现并行程序的准确计时。示例代码如下:
关于OpenMP的入门,博主饮水思源(见参考资料)有了深入浅出,循序渐进的分析。做并行开发,做性能分析是永远逃避不开的话题,性能问题的研究一切基于系统的计时。本人参考饮水思源的代码在双核与四核机器的操作过程中,发现clock()针对并行运行时间计时不准的问题,运行结果显示并行方式和串行的时间基本相近,使得并行方式在时间计数上并未有明显优势。本文就其运行时间统计做相关分析,通过改进的方式,对时间进行了判断,首先在For循环中加入打印语句判断是否多核执行;然后判断系统确实是多核执行后,在For循环中加入等待函数sleep,运行程序并人工计时,这时的时间在双核机器并行比串行要快近两倍,四核机器并行时间比串行快近四倍。所以可知clock()不适合做并行程序的计时工具,需要找到相关的替代。
for (int i=0;i<10;i++) { std::cout<<"currend id: "<<omp_get_thread_num()<<std::endl; sleep(1); test(); }
1、For循环的串行
新建SFor.cpp文件,内容为#include <iostream> #include <time.h> #include <stdio.h> #include <omp.h> void test() { int a = 0; for (int i=0;i<100000000;i++) a++; } int main() { struct timespec time1 = {0, 0}; struct timespec time2 = {0, 0}; clock_gettime(CLOCK_REALTIME, &time1); std::cout<<"sec num: "<<time1.tv_sec<<"; nsec num: "<<time1.tv_nsec<<std::endl; //clock_t t1 = clock(); for (int i=0;i<10;i++) { //std::cout<<"currend id: "<<omp_get_thread_num()<<std::endl; test(); } //clock_t t2 = clock(); //std::cout<<"time: "<<t2-t1<<std::endl; clock_gettime(CLOCK_REALTIME, &time2); std::cout<<"sec num: "<<time2.tv_sec<<"; nsec num: "<<time2.tv_nsec<<std::endl; std::cout<<"time: "<<(time2.tv_sec-time1.tv_sec)*1000+(time2.tv_nsec-time1.tv_nsec)/1000000<<"ms"<<std::endl; }
CentOS6.5 的GCC版本默认4.4.7,原生支持OpenMP编译
[root@localhost MPDemo]# gcc --version
gcc (GCC) 4.4.7 20120313 (Red Hat 4.4.7-4)
通过编译命令编译源文件为:
g++ -fopenmp SFor.cpp -o sfor.out
[root@localhost MPDemo]# g++ -fopenmp PFor.cpp -o pfor.out
[root@localhost MPDemo]# ./sfor.out
sec num: 1386991744; nsec num: 676508350
sec num: 1386991748; nsec num: 245595277
time: 3570ms
2、For循环的并行
新建PFor.cpp文件,内容为#include <iostream> #include <time.h> #include <stdio.h> #include <omp.h> void test() { int a = 0; for (int i=0;i<100000000;i++) a++; } int main() { int coreNum = omp_get_num_procs();//获得处理器个数 std::cout<<"cpu numbers: "<<coreNum<<std::endl; struct timespec time1 = {0, 0}; struct timespec time2 = {0, 0}; clock_gettime(CLOCK_REALTIME, &time1); std::cout<<"sec num: "<<time1.tv_sec<<"; nsec num: "<<time1.tv_nsec<<std::endl; //clock_t t1 = clock(); #pragma omp parallel for for (int i=0;i<10;i++) { //std::cout<<"currend id: "<<omp_get_thread_num()<<std::endl; test(); } //clock_t t2 = clock(); //std::cout<<"time: "<<t2-t1<<std::endl; clock_gettime(CLOCK_REALTIME, &time2); std::cout<<"sec num: "<<time2.tv_sec<<"; nsec num: "<<time2.tv_nsec<<std::endl; std::cout<<"time: "<<(time2.tv_sec-time1.tv_sec)*1000+(time2.tv_nsec-time1.tv_nsec)/1000000<<"ms"<<std::endl; }
g++ -fopenmp PFor.cpp -o pfor.out
[root@localhost MPDemo]# ./pfor.out
cpu numbers: 2
sec num: 1386991842; nsec num: 452768086
sec num: 1386991844; nsec num: 527629070
time: 2074
3、分析总结
clock_gettime能获得纳秒级的精度,1秒=10^9纳秒。clock_gettime包含多种计时方式。a、CLOCK_REALTIME:系统实时时间,随系统实时时间改变而改变
b、CLOCK_MONOTONIC,从系统启动这一刻起开始计时,不受系统时间被用户改变的影响
c、CLOCK_PROCESS_CPUTIME_ID,本进程到当前代码系统CPU花费的时间
d、CLOCK_THREAD_CPUTIME_ID,本线程到当前代码系统CPU花费的时间
本文默认采用CLOCK_REALTIME,即可实现并行程序的准确计时。示例代码如下:
struct timespec time1 = {0, 0}; clock_gettime(CLOCK_REALTIME, &time1); std::cout<<"sec num: "<<time1.tv_sec<<"; nsec num: "<<time1.tv_nsec<<std::endl;
参考资料
参考比较好的入门资源:博主饮水思源的openMP的一点使用经验相关文章推荐
- 使用Intel VTune性能分析器分析.NET模块运行时间
- StopWatch 监控Java代码运行时间和分析性能
- 使用Intel VTune性能分析器分析.NET模块运行时间
- 使用Intel VTune性能分析器分析.NET模块运行时间 推荐
- JS性能分析(测试代码运行时间)
- StopWatch 监控Java代码运行时间和分析性能
- [性能] abap运行时间分析工具se30(SAT)使用介绍
- 使用Intel VTune性能分析器分析.NET模块运行时间
- 用stopWatch统计运行时间,性能分析
- MongoDB运行状态、性能监控,分析
- 把数组排成最小的数三种实现方式及时间性能分析
- 一个Web报表项目的性能分析和优化实践(一):小试牛刀,统一显示SQL语句执行时间
- SSH登陆远程Linux服务器运行VisualVM, 进行Java性能分析
- 数组和链表的理解和运行时间分析
- MD5和SHA1算法C++实现及运行时间分析
- 性能分析 之 统计代码的执行时间
- 6个算法的运行时间分析
- oracle性能优化--控制单次任务规模,减少总体运行时间
- 使用console进行 性能测试 和 计算代码运行时间
- 阶乘之和 & 程序运行时间 & 算法分析