您的位置：首页 > 编程语言

Ubuntu下的CUDA编程（四）

2012-12-06 14:58 183 查看

近来测试了矩阵（规模为2048*2048）乘法在不同参数下两个算法分别使用的时间：第一个算法为没有使用shared
memory的直接相乘，每个thread负责矩阵C的一个元素的计算；第二个算法为使用了shared
memory的分块算法，每个block就是一个小的矩阵分块，而测试所得数据如下图所示：

说明：水平方向的参数是BLOCK_SIZE（4/8/16/32），垂直方向的参数是调用矩阵乘法核函数的次数（10/100），表格中数据单位为秒。

由此图可以看到，在BLOCK_SIZE为4时，未分块的矩阵乘法核函数运行出错（原因未明，可能和warp执行束的特点相关），而当BLOCK_SIZE为8/16/32时，分块矩阵乘法将体现出3-4倍的加速，由此也可以看出使用shared
memory的必要之处，特别地，我们看BLOCK_SIZE等于16时的更多比较：

说明：BLOCK_SIZE大小为16，表中数据单位为秒。

基本上分块算法（参见NVIDIA CUDA Programing Guide）都能够保持将近3倍的加速。

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航