您的位置：首页 > 编程语言 > C语言/C++

opencl:C++ 利用cl::make_kernel简化kernel执行代码

2016-02-29 18:19 651 查看

上一篇博客《opencl:C++实现双线性插值图像缩放》中介绍了简单的图像缩放函数

代码片段如下，可以看到，为了执行kernel，先要设置kernel参数，然后调用

enqueueNDRangeKernel

执行kernel。

/* 缩放图像(双线性插值) 返回缩放后的图像数据*/
gray_matrix_cl gray_matrix_cl::zoom(size_t dst_width, size_t dst_height, const facecl_context& context)const {
gray_matrix_cl dst_matrix(dst_width, dst_height);
auto kernel = context.getKernel(KERNEL_NAME(image_scaling));// 获取已经编译好的cl::Kernel
auto command_queue = global_facecl_context.getCommandQueue();// 获取cl::CommandQueue
this->upload(command_queue);//向OpenCL设备中上传原始图像数据
cl_float widthNormalizationFactor = 1.0f / dst_width;
cl_float heightNormalizationFactor = 1.0f / dst_height;
// 设置kernel参数
kernel.setArg(0, cl_img);
kernel.setArg(1, dst_matrix.cl_img);
kernel.setArg(2, widthNormalizationFactor);
kernel.setArg(3, heightNormalizationFactor);
const cl::NDRange global(dst_width, dst_height);
// 执行 kernel
command_queue.enqueueNDRangeKernel(kernel, gray_matrix_cl::NullRange, global);
command_queue.finish();// 等待kernel执行结束
dst_matrix.download(command_queue);// 从OpenCL设备中下载结果数据
return std::move(dst_matrix);
}

在上面的代码中，kernel中有几个参数，就有几行

setArg

，写着好烦呐，其实仔细研究opencl的C++接口，可以发现，cl.hpp中已经提供了

cl::make_kernal

模板算子(functor)，用于简化kernel调用。

下面的代码将上述的zoom函数改为使用cl::make_kernel

/* 缩放图像(双线性插值) */
gray_matrix_cl gray_matrix_cl::zoom(size_t dst_width, size_t dst_height, const facecl_context& context)const {
gray_matrix_cl dst_matrix(dst_width, dst_height);
auto command_queue = global_facecl_context.getCommandQueue();// 获取cl::CommandQueue
this->upload(command_queue);//向OpenCL设备中上传原始图像数据
cl_float widthNormalizationFactor = 1.0f / dst_width;
cl_float heightNormalizationFactor = 1.0f / dst_height;
//构造cl::make_kernel对象执行kernel
cl::make_kernel<cl::Image2D,cl::Image2D,cl_float,cl_float>
(context.getKernel(KERNEL_NAME(image_scaling)))// 获取已经编译好的cl::Kernel
(cl::EnqueueArgs(command_queue,cl::NDRange( dst_width, dst_height )),
cl_img,dst_matrix.cl_img,
widthNormalizationFactor,
heightNormalizationFactor);
command_queue.finish(); // 等待kernel执行结束
dst_matrix.download(command_queue);从OpenCL设备中下载结果数据
return std::move(dst_matrix);
}

这样仅用一条语句就完成了kernel参数设置和执行功能，减少代码出错的机会(貌似这条语句比较长呐，呵呵)。

下面是

cl::make_kernel

构造函数的说明

/*
创建一个具有最少一个最多32个参数的kernal算子(functor)
T0 到 T31 是kernel的参数类型(顺序与kernel函数的参数申明顺序一致)
program 为定义了kernel的cl::Program对象.
name is the name of the kernel functor.//kernel 名字
err 如果err不为NULL,出错时返回错误代码.
*/

template <typename T0, typename T1 = detail::NullType, typename T2 = detail::NullType,
typename T3 = detail::NullType, typename T4 = detail::NullType, typename T5 = detail::NullType,
typename T6 = detail::NullType, typename T7 = detail::NullType, typename T8 = detail::NullType,
typename T9 = detail::NullType, typename T10 = detail::NullType, typename T11 = detail::NullType,
typename T12 = detail::NullType, typename T13 = detail::NullType, typename T14 = detail::NullType,
typename T15 = detail::NullType, typename T16 = detail::NullType, typename T17 = detail::NullType,
typename T18 = detail::NullType, typename T19 = detail::NullType, typename T20 = detail::NullType,
typename T21 = detail::NullType, typename T22 = detail::NullType, typename T23 = detail::NullType,
typename T24 = detail::NullType, typename T25 = detail::NullType, typename T26 = detail::NullType,
typename T27 = detail::NullType, typename T28 = detail::NullType, typename T29 = detail::NullType,
typename T30 = detail::NullType, typename T31 = detail::NullType>
struct make_kernel :: detail::functionImplementation<T0, T1, T2, T3, T4, T5, T6, T7, T8, T9, T10,
T11, T12, T13, T14, T15, T16, T17, T18, T19, T20, T21, T22, T23, T24, T25, T26, T27, T28, T29, T30, T31>
cl::make_kernel::make_kernel(
const Program &program,
const STRING_CLASS name,
cl_int *err = NULL)
/* 与前一个构造函数差不多
只是调用由cl::Program,STRING_CLASS 参数变为cl::Kernel.
*/
template <typename T0, typename T1 = detail::NullType, typename T2 = detail::NullType,
typename T3 = detail::NullType, typename T4 = detail::NullType, typename T5 = detail::NullType,
typename T6 = detail::NullType, typename T7 = detail::NullType, typename T8 = detail::NullType,
typename T9 = detail::NullType, typename T10 = detail::NullType, typename T11 = detail::NullType,
typename T12 = detail::NullType, typename T13 = detail::NullType, typename T14 = detail::NullType,
typename T15 = detail::NullType, typename T16 = detail::NullType, typename T17 = detail::NullType,
typename T18 = detail::NullType, typename T19 = detail::NullType, typename T20 = detail::NullType,
typename T21 = detail::NullType, typename T22 = detail::NullType, typename T23 = detail::NullType,
typename T24 = detail::NullType, typename T25 = detail::NullType, typename T26 = detail::NullType,
typename T27 = detail::NullType, typename T28 = detail::NullType, typename T29 = detail::NullType,
typename T30 = detail::NullType, typename T31 = detail::NullType>
struct make_kernel :: detail::functionImplementation<T0, T1, T2, T3, T4, T5, T6, T7, T8, T9, T10,
T11, T12, T13, T14, T15, T16, T17, T18, T19, T20, T21, T22, T23, T24, T25, T26, T27, T28, T29, T30, T31>
cl::make_kernel::make_kernel(
const Kernel kernel,
cl_int *err = NULL)

cl::make_kernel 还重载了()操作符用于kernel调用，格式如下。

Event operator() ( EnqueueArgs& args,
T0 t0, T1 t1 = NullType, …, T31 t31 = NullType)
Event operator() ( EnqueueArgs& args,
const Event& waitEvent,
T0 t0, T1 t1 = NullType, …, T31 t31 = NullType )
Event operator() ( EnqueueArgs &args,
const VECTOR_CLASS<Event>& waitEvents,
T0 t0, T1 t1 = NullType, …, T31 t31 = NullType )

前面修改后的

zoom

函数中如下代码就是调用

operator()

操作符的参数

(cl::EnqueueArgs(command_queue,cl::NDRange( dst_width, dst_height )),
cl_img,dst_matrix.cl_img,
widthNormalizationFactor,
heightNormalizationFactor)

另外上面这段代码中

cl::EnqueueArgs(command_queue,cl::NDRange( dst_width, dst_height ))

部分

用到了

cl::EnqueueArgs

类，

cl:EnqueueArgs

类参数化参数调度。下面列出了其构造函数的正交重载允许调度参数和参数计算仿函数。如果传递一个事件,EnqueueArgs 为enquque构造一个事件的列表。如果传递一个向量的事件,它构造一个输入事件依赖项列表。参数调度发生通过默认队列或指定的队列。

The constructors for EnqueueArgs are:
cl::EnqueueArgs::EnqueueArgs(NDRange global)
cl::EnqueueArgs::EnqueueArgs(NDRange global, NDRange local)
cl::EnqueueArgs::EnqueueArgs(NDRange offset, NDRange global, NDRange local)
cl::EnqueueArgs::EnqueueArgs(Event e, NDRange global)
cl::EnqueueArgs::EnqueueArgs(Event e, NDRange global, NDRange local)
cl::EnqueueArgs::EnqueueArgs(Event e, NDRange offset, NDRange global, NDRange local)
cl::EnqueueArgs::EnqueueArgs(const VECTOR_CLASS<Event> &events, NDRange global)
cl::EnqueueArgs::EnqueueArgs(const VECTOR_CLASS<Event> &events, NDRange global,
NDRange local)
cl::EnqueueArgs::EnqueueArgs(const VECTOR_CLASS<Event> &events, NDRange offset,
NDRange global, NDRange local)
cl::EnqueueArgs::EnqueueArgs(CommandQueue &queue, NDRange global)
cl::EnqueueArgs::EnqueueArgs(CommandQueue &queue, NDRange global, NDRange local)
cl::EnqueueArgs::EnqueueArgs(CommandQueue &queue, NDRange offset, NDRange global,
NDRange local)
cl::EnqueueArgs::EnqueueArgs(CommandQueue &queue, Event e, NDRange global)
cl::EnqueueArgs::EnqueueArgs(CommandQueue &queue, Event e, NDRange global,
NDRange local)
cl::EnqueueArgs::EnqueueArgs(CommandQueue &queue, Event e, NDRange offset,
NDRange global, NDRange local)
cl::EnqueueArgs::EnqueueArgs(CommandQueue &queue,
const VECTOR_CLASS<Event> &events, NDRange global)
cl::EnqueueArgs::EnqueueArgs(CommandQueue &queue,
const VECTOR_CLASS<Event> &events, NDRange global, NDRange local)
cl::EnqueueArgs::EnqueueArgs(CommandQueue &queue,
const VECTOR_CLASS<Event> &events, NDRange offset, NDRange global,
NDRange local)
global is a global work size corresponding to the global_work_size argument of the underlying OpenCL EnqueueNDRangeKernel call.
local is a local work size corresponding to the local_work_size argument of the underlying OpenCL EnqueueNDRangeKernel call. If local is not specified, a NULL local_work_size is used.
offset is an offset corresponding to the global_work_offset argument of the underlying OpenCL EnqueueNDRangeKernel call. If offset is not specified, a NULL global_work_offset is used.
e is an Event that must be completed before the EnqueueArgs may be executed, and similarly
events is a list of events that must be completed before the EnqueueArgs may be executed. If neither e nor events is specified, the EnqueueArgs is executed without waiting on any events.
queue is a CommandQueue to which the EnqueueArgs is submitted. If queue is not specified, EnqueueArgs is submitted to the default queue.

本文所有opencl的函数说明来自opencl官方文档:opencl-cplusplus-1.2.pdf

关于对
cl::make_kernel
调用方法的进一步改进，参见我的另一篇博客《opencl:cl::make_kernel的进化》

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签： opencl kernel c++ 简化调用

相关文章推荐

新的分享

章节导航