CUDA-全局内存读取-实验(缓存+非缓存-Pascal架构-sm6.1)
2018-01-12 22:13
288 查看
特别声明: 设备GTX1050Ti, 计算能力6.1.代码附在后面;
(1)Pascal架构,启用L1缓存,-Xptxas -dlcm=ca 。即采用128字节内存事务。
采用不同的偏移量,以实现非对齐访问。命令行为:“nvprof --metircs gld_efficiency test.exe N” (N为偏移量)。采用批处理,计算0-255的偏移量的全局内存加载效率,统计结果如下:偏移量每隔4,跳变一次。
(1)Pascal架构,禁用L1缓存,-Xptxas -dlcm=cg 。即采用32字节内存事务。
采用不同的偏移量,以实现非对齐访问。命令行为:“nvprof --metircs gld_efficiency test.exe N” (N为偏移量)。采用批处理,计算0-255的偏移量的全局内存加载效率,统计结果如下:偏移量每隔8,跳变一次。
计算性能对比:
缓存加载:
(1)Pascal架构,启用L1缓存,-Xptxas -dlcm=ca 。即采用128字节内存事务。采用不同的偏移量,以实现非对齐访问。命令行为:“nvprof --metircs gld_efficiency test.exe N” (N为偏移量)。采用批处理,计算0-255的偏移量的全局内存加载效率,统计结果如下:偏移量每隔4,跳变一次。
非缓存加载:
(1)Pascal架构,禁用L1缓存,-Xptxas -dlcm=cg 。即采用32字节内存事务。采用不同的偏移量,以实现非对齐访问。命令行为:“nvprof --metircs gld_efficiency test.exe N” (N为偏移量)。采用批处理,计算0-255的偏移量的全局内存加载效率,统计结果如下:偏移量每隔8,跳变一次。
计算性能对比:
相关文章推荐
- CUDA-全局内存读取-实验(缓存+非缓存-Fermi架构-sm2.1)
- CUDA全局内存读取
- Squid反向代理加速缓存+负载均衡实验架构
- Caffe Ubuntu14.04 + CUDA 8 (支持GTX1080 1070等Pascal架构显卡)
- MySQL内存使用说明(全局缓存+线程缓存)
- Vue项目全局配置页面缓存之按需读取缓存的实现详解
- CUDA学习--内存处理之全局内存(5)
- 搭建一个大型网站架构的实验环境(Squid缓存服务器篇)
- codeigniter读取数据库的公共配置并全局缓存的实现方案
- cuda共享内存,全局内存,纹理等的解释
- 搭建一个大型网站架构的实验环境(Squid缓存服务器篇)
- 搭建一个大型网站架构的实验环境(Squid缓存服务器篇)
- Oracle内存全面分析(3)-1Oracle 的内存架构组成_1SGA.3共享池(Shared pool)的组成:库缓存(Library Cache)和字典缓存(Dictionary Cache)
- CUDA中各种内存及线程布局的性能实验分析(1)
- PHP系统的服务器端内存缓存架构的分析和优化
- codeigniter读取数据库的公共配置并全局缓存的实现方案
- codeigniter读取数据库的公共配置并全局缓存的实现方案
- PHP系统的服务器端内存缓存架构的分析和优化
- codeigniter读取数据库的公共配置并全局缓存的实现方案
- 搭建一个大型网站架构的实验环境(Squid缓存服务器篇)第1/2页