您的位置:首页 > 其它

Cuda 内存模型相关相关知识

2015-03-11 19:11 239 查看
CUDA中, 每个线程所能掌控的内存有如下几种:

(1)R / W per thread registers。

(2) R/W per thread local memory(每个线程的局部内存)

(3) R/W per block shared memory(共享内存)

(4) R/W per grid global memory

(5) 只能线程用于读, 不能用于写的per grid constant memory

(6) 只能用线程于读, 不能用于写的texture memory.

另外host掌控这global memory. const memory, texture memory。 能够对这三个内存区域进行读和写

为了清楚的表达CUDA的内存模型, 见如下图:



注意, global memory 是host和device进行数据读写通信的主要手段。 global区域中的数据对于所有的thread都是可见的。

texture 和constant memory 中, constant 区域是被host进行初始化的。 而且这两个内存区域的内容也是被所有的线程可见。

另外, global, constant, 以及texture的memory区域 是数据读写是延迟较大的区域。

CUDA 有一个API, 即cudaMalloc()函数, 是device的在global memory中分配内存对象所需的内存。 并且使用cudaFree()释放

该global memory中给定的对象。

cudaMemcpy() 函数是内存中数据的移动用的。 传递的方时有如下几种:

HostToHost

HostToDevice

DeviceToDevice

DeviceToDevice
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: