基于GPU的数字图像并行处理研究 - CUDA应用 - 中关村服务器配件网

筛子 2010-01-11

展开全文

GPU并行化处理

　　可编程图形处理器（Programmable Graphic Process Unit, PGPU）是目前计算机上普遍采用的图形图像处理专用器件，具有单指令流多数据流（SIMD）的并行处理特性，而且提供了完全支持向量操作指令和符合IEEE32位浮点格式的顶点处理能力和像素处理能力，已经成为了一个强大的并行计算单元。研究人员将其应用于加速科学计算和可视化应用程序，取得了令人鼓舞的研究成果。

　　与CPU相比，GPU具有以下优势：强大的并行处理能力和高效率的数据传输能力[1] [2] [7]。其中，并行性主要体现了指令级、数据级和任务级三个层次。高效率的数据传输主要体现在两个方面： GPU与显存之间的带宽为：16GB/s；系统内存到显存的带宽为：4GB/s。

　　总上所述，GPU比较适合处理具有下面特性的应用程序：1、大数据量；2、高并行性；3、低数据耦合；4、高计算密度；5、与CPU交互比较少。

数字图像处理的并行化分析

　　数字图像处理算法多种多样，但从数据处理的层面来考虑，可以分为：像素级处理、特征级处理和目标级处理三个层次[3][4]。

（1）像素级图像处理

　　像素级处理，即由一幅像素图像产生另一幅像素图像，处理数据大部分是几何的、规则的和局部的。根据处理过程中的数据相关性，像素级处理又可进一步分为点运算、局部运算和全局运算。

（2）特征级图像处理

　　特征级处理是在像素图像产生的一系列特征上进行的操作。常用的特征包括：形状特征、纹理特征、梯度特征和三维特征等，一般采用统一的测度，如：均值、方差等，来进行描述和处理，具有在特征域内进行并行处理的可能性。但是，由于其特征具有象征意义和非局部特性，在局部区域并行的基础上，需要对总体进行处理。利用GPU实现并行化处理的难度比较大。

（3）目标级图像处理

　　目标级处理是对由一系列特征产生的目标进行操作。由于目标信息具有象征意义和复杂性，通常是利用相关知识进行推理，得到对图像的描述、理解、解释以及识别。由于其数据之间相关性强，且算法涉及到较多的知识和人工干预，并行处理的难度也比较大。

　　由此可见，整个图像处理的结构可以利用一个金字塔模型来表示。在底层，虽然处理的数据量巨大，但由于局部数据之间的相关性小，且较少的涉及知识推理和人工干预，因此大多数算法的并行化程度比较高。当沿着这个金字塔结构向高层移动时，随着抽象程度的提高，大量原始数据减少，所需的知识和算法的复杂性逐层提高，并行化处理的难度也逐渐加大。

　　由于绝大部分的图像处理算法是在像素级进行的，且GPU的SIMD并行流式处理在进行像素级的图像处理时具有明显的优势，而特征级和目标级处理无论是从数据的表达还是从算法自身的实现来说，都很难实现GPU并行化。因此，本文重点研究各种像素级图像处理操作的GPU并行化实现方法。

数字图像GPU并行化处理的基本流程与关键技术

　　现代GPU提供了顶点处理器和片段处理器两个可编程并行处理部件。在利用GPU执行图像处理等通用计算任务时，要做的主要工作是把待求解的任务映射到GPU支持的图形绘制流水线上。通常的方法是把计算任务的输入数据用顶点的位置、颜色、法向量等属性或者纹理等图形绘制要素来表达，而相应的处理算法则被分解为一系列的执行步骤，并改写为GPU的顶点处理程序或片段处理程序，然后，调用3D API执行图形绘制操作，调用片段程序进行处理；最后，保存在帧缓存中的绘制结果就是算法的输出数据，如图1所示[5][6]。

图1 遥感影像GPU并行化处理基本流程