您的位置：首页 > 运维架构

Altera笔记：Introduction to Parallel Computing with OpenCL

2014-03-09 18:24 399 查看

今天注册了altera的training课程，想看看OpenCL写FPGA是怎么写（只知道用HDL写FPGA）。

heterogeneous computing 需要在CPU DSP上面写sequential code，同时在FPGA上面用VHDL/Verilog来实现fine grained parallelism and vectoring。不过这样在写的时候或者在运行的时候会有很多调试等等的工作，导致开发效率低下。

以往来说，parallelism是侧重于写ILP给OoO processor。但是现在随着core 复杂化，这样不行。于是改成tlp，也就是要显式的写成thread level parallelism来利用多核heterogenious 环境。所以一个通用的并行编程的middle layer（ren：中间层）就可以实现在多种不同架构的硬件上编程，而不需要分为C++/Java和HDL。

写并行程序有2大难点：

1. 把顺序算法设计成并行以利用多核的heterogeneous硬件；

2. 解决data sharing和Synchronization issues。

在并行运行的时候，data dependency就是很大问题。例如，在5级pipeline(就是一种task parallelism where pipes have a producer-consumer relation)的MIPS中就会有RAW和superscaler时会有WAW和WAR。这时候会有牵涉到硬件设计的：Uniform address spaces, cache coherency(这个面试常常会考，2个protocal要理解)。

不过OpenCL提供了abstract model for parallelism, 以及data sharing跟Synchronization的机制。

2个并行编程的方法：scatter and gathering （data parallelism）和 divide and conquer（task parallelism）。一般都会把2个混着用。

scatter and gather: 可以用SIMD。

Divide and conquer: 可以用simultaneous multithreading （SMT）。“A modern GPU contains a set of multi-threaded streaming multiprocessors (SM), which are discrete independent execution
units.” 点击打开链接这里有个详细的分析：SIMD < SIMT < SMT: parallelism in NVIDIA GPUs 点击打开链接

......................................

接下来可以上：

We recommend completing the following courses:

Writing OpenCL Programs for Altera FPGAs (OOPNCL200) 52 Minutes Online Course
Running OpenCL on Altera FPGAs
不过还是得有板子才行

那有了C code就不用设计成Verilog就能port到FPGA上面？真厉害。

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航