cublasSgemm实现矩阵的相乘
2013-07-02 16:18
267 查看
今天想调用cuda的库函数实现矩阵的相乘,但是发现在cublasSgemm中矩阵是按照列主元素进行存储的,也就是一列列的存储的。这和c中一般按照行存储完全相反,后面看了一个帖子http://cudazone.nvidia.cn/forum/forum.php?mod=viewthread&tid=6001&extra=&page=2讲了一个方法,后面理了一下,具体分析如下:
比如,我们想求C=A*B这个矩阵运算,其中A={{1,1},{2,2},{3,3}};B={{1},{1}};C={{4},{5},{6}},而对于A、B、C进行一维数组表示有A={1,1,2,2,3,3},B={1,1},C={4,5,6};这个在c/c++是和前面表示一样,但是在cublasSgemm中就完全不对了,那么这个一维的A其实表示的是{{1,2,3},{1,2,3}};可以看到两个矩阵其实刚好是转置关系。那么我们要求C=A*B,按照一维数据输入的话结果A表示的是AT,B表示的是BT,所以我们要输入的是AT和BT,这样在公式中得到的才是A*B.假设这是得到矩阵C=A*B,但是C也是按列存储的,我们要的是CT,而CT=BT*AT,而这里的BT其实就是原矩阵B,AT其实就是原矩阵A。可见,我们通过交换AB的顺序就可以得到按行存储的C。
这里还有一点,就是cublasSgemm的参数,把自己绕的有点晕。这里我们输入的是B*A即(2*1)*(3*2),但是真正在函数中执行的是BT*AT=CT(1*2)*(2*3=(1*3)).因此主要不要把参数搞错了。。
而代码如下:
比如,我们想求C=A*B这个矩阵运算,其中A={{1,1},{2,2},{3,3}};B={{1},{1}};C={{4},{5},{6}},而对于A、B、C进行一维数组表示有A={1,1,2,2,3,3},B={1,1},C={4,5,6};这个在c/c++是和前面表示一样,但是在cublasSgemm中就完全不对了,那么这个一维的A其实表示的是{{1,2,3},{1,2,3}};可以看到两个矩阵其实刚好是转置关系。那么我们要求C=A*B,按照一维数据输入的话结果A表示的是AT,B表示的是BT,所以我们要输入的是AT和BT,这样在公式中得到的才是A*B.假设这是得到矩阵C=A*B,但是C也是按列存储的,我们要的是CT,而CT=BT*AT,而这里的BT其实就是原矩阵B,AT其实就是原矩阵A。可见,我们通过交换AB的顺序就可以得到按行存储的C。
这里还有一点,就是cublasSgemm的参数,把自己绕的有点晕。这里我们输入的是B*A即(2*1)*(3*2),但是真正在函数中执行的是BT*AT=CT(1*2)*(2*3=(1*3)).因此主要不要把参数搞错了。。
而代码如下:
#include <cublas_v2.h> //cuda自带库函数 #include <helper_cuda.h> #include <stdio.h> int main(void) { float alpha=1.0; float beta=0.0; float h_A[6]={1,1,2,2,3,3}; float h_B[2]={1,1}; float h_C[3]; float *d_a,*d_b,*d_c; checkCudaErrors(cudaMalloc((void**)&d_a,6*sizeof(float))); checkCudaErrors(cudaMalloc((void**)&d_b,2*sizeof(float))); checkCudaErrors(cudaMalloc((void**)&d_c,3*sizeof(float))); checkCudaErrors(cudaMemcpy(d_a,&h_A,6*sizeof(float),cudaMemcpyHostToDevice)); checkCudaErrors(cudaMemcpy(d_b,&h_B,2*sizeof(float),cudaMemcpyHostToDevice)); checkCudaErrors(cudaMemset(d_c,0,3*sizeof(float))); cublasHandle_t handle; cublasCreate(&handle); cublasSgemm(handle,CUBLAS_OP_N,CUBLAS_OP_N,1,3,2,&alpha,d_b,1,d_a,2,&beta,d_c,1); checkCudaErrors(cudaMemcpy(h_C,d_c,3*sizeof(float),cudaMemcpyDeviceToHost)); for(int i=0;i<3;i++) { printf("%f\n",h_C[i]); } printf("\n"); return 0; }
相关文章推荐
- cublasSgemm实现矩阵的相乘
- hadoop矩阵相乘简单实现
- 矩阵相乘的C代码实现
- Python实现矩阵相乘的三种方法
- 矩阵相乘算法的Java语言实现
- Erlang实现的矩阵相乘C=A*B单线程与并行多线程性能对比
- MapReduce实现矩阵相乘
- C/C++实现矩阵相乘(一)
- C语言实现两个矩阵相乘
- 矩阵相乘-c++代码实现及运行实例结果
- 任意维矩阵相乘-C实现
- java实现矩阵相乘
- 将对称矩阵压缩存储,实现矩阵相乘,输出相乘后结果(用二维数组)
- 矩阵相乘-c++代码实现及运行实例结果
- C/C++ 实现矩阵相乘(二)
- opencv 矩阵与一个常数相乘的 两种实现方法
- 二维矩阵实现矩阵相乘
- 实现稀疏矩阵相乘C/C++
- 矩阵相乘的三种方法(java实现)
- 矩阵相乘-c++代码实现及运行实例结果