Cuda 内存模型相关相关知识
2015-03-11 19:11
239 查看
CUDA中, 每个线程所能掌控的内存有如下几种:
(1)R / W per thread registers。
(2) R/W per thread local memory(每个线程的局部内存)
(3) R/W per block shared memory(共享内存)
(4) R/W per grid global memory
(5) 只能线程用于读, 不能用于写的per grid constant memory
(6) 只能用线程于读, 不能用于写的texture memory.
另外host掌控这global memory. const memory, texture memory。 能够对这三个内存区域进行读和写。
为了清楚的表达CUDA的内存模型, 见如下图:
注意, global memory 是host和device进行数据读写通信的主要手段。 global区域中的数据对于所有的thread都是可见的。
texture 和constant memory 中, constant 区域是被host进行初始化的。 而且这两个内存区域的内容也是被所有的线程可见。
另外, global, constant, 以及texture的memory区域 是数据读写是延迟较大的区域。
CUDA 有一个API, 即cudaMalloc()函数, 是device的在global memory中分配内存对象所需的内存。 并且使用cudaFree()释放
该global memory中给定的对象。
cudaMemcpy() 函数是内存中数据的移动用的。 传递的方时有如下几种:
HostToHost
HostToDevice
DeviceToDevice
DeviceToDevice
(1)R / W per thread registers。
(2) R/W per thread local memory(每个线程的局部内存)
(3) R/W per block shared memory(共享内存)
(4) R/W per grid global memory
(5) 只能线程用于读, 不能用于写的per grid constant memory
(6) 只能用线程于读, 不能用于写的texture memory.
另外host掌控这global memory. const memory, texture memory。 能够对这三个内存区域进行读和写。
为了清楚的表达CUDA的内存模型, 见如下图:
注意, global memory 是host和device进行数据读写通信的主要手段。 global区域中的数据对于所有的thread都是可见的。
texture 和constant memory 中, constant 区域是被host进行初始化的。 而且这两个内存区域的内容也是被所有的线程可见。
另外, global, constant, 以及texture的memory区域 是数据读写是延迟较大的区域。
CUDA 有一个API, 即cudaMalloc()函数, 是device的在global memory中分配内存对象所需的内存。 并且使用cudaFree()释放
该global memory中给定的对象。
cudaMemcpy() 函数是内存中数据的移动用的。 传递的方时有如下几种:
HostToHost
HostToDevice
DeviceToDevice
DeviceToDevice
相关文章推荐
- Java中内存分配相关知识收集
- 关于c++检测内存泄露相关知识(windows程序调试)
- 内存相关知识
- Linux设备驱动程序——Linux设备驱动程序——内存和I/O基础知识学习:(2)内核中相关基础知识学习
- Linux设备驱动程序——内存和I/O基础知识学习:(1)内核中相关基础知识学习
- 应用程序内存调整(4GT)技术相关知识
- IEC61850变电站基本通信结构-原理和模型_8相关知识
- C/C++中的内存分区及堆栈相关知识
- 缓存与内存相关知识
- JAVA学习笔记--4.多线程编程 part1.背景知识和内存模型
- 关于c++检测内存泄露相关知识(windows程序调试)
- linux下共享内存相关知识
- 关于C++检测内存泄露相关知识(Windows程序调试)
- 内存相关(C/C++)基础知识
- 关于c++检测内存泄露相关知识(windows程序调试)
- 内存相关的一些知识
- Oracle内存组件与进程的相关知识总结
- JVM内存结构及java相关基础知识
- C/C++中的内存分区及堆栈相关知识
- 内核中与驱动相关的内存操作之三(内存模型)