GPU工作原理简介

来自：yangshiquan > 馆藏分类

配色：

字号：大中小

GPU工作原理简介

2012-08-08 | 阅：转： | 分享

GPU工作原理简介

计算机0601沈凯杰

【引言】

在GPU出现以前，显卡和CPU的关系有点像“主仆”，简单地说这时的显卡就是画笔，根据各种有CPU发出的指令和数据进行着色，材质的填充、渲染、输出等。

较早的娱乐用的3D显卡又称“3D加速卡”，由于大部分坐标处理的工作及光影特效需要由CPU亲自处理，占用了CPU太多的运算时间，从而造成整体画面不能非常流畅地表现出来。

例如，渲染一个复杂的三维场景，需要在一秒内处理几千万个三角形顶点和光栅化几十亿的像素。早期的3D游戏，显卡只是为屏幕上显示像素提供一个缓存，所有的图形处理都是由CPU单独完成。图形渲染适合并行处理，擅长于执行串行工作的CPU实际上难以胜任这项任务。所以，那时在PC上实时生成的三维图像都很粗糙。不过在某种意义上，当时的图形绘制倒是完全可编程的，只是由CPU来担纲此项重任，速度上实在是达不到要求。NVIDIA公司在1999年发布GeForce256图形处理芯片时首先提出GPU的概念。GPU的图形（处理）流水线完成如下的工作：（并不一定是按照如下顺序）顶点处理：这阶段GPU读取描述3D图形外观的顶点数据并根据顶点数据确定3D图形的形状及位置关系，建立起3D图形的骨架。在支持DX8和DX9规格的GPU中，这些工作由硬件实现的VertexShader（定点着色器）完成。光栅化计算：显示器实际显示的图像是由像素组成的，我们需要将上面生成的图形上的点和线通过一定的算法转换到相应的像素点。把一个矢量图形转换为一系列像素点的过程就称为光栅化。例如，一条数学表示的斜线段，最终被转化成阶梯状的连续像素点。纹理帖图：顶点单元生成的多边形只构成了3D物体的轮廓，而纹理映射（texturemapping）工作完成对多变形表面的帖图，通俗的说，就是将多边形的表面贴上相应的图片，从而生成“真实”的图形。TMU（Texturemappingunit）即是用来完成此项工作。像素处理：这阶段（在对每个像素进行光栅化处理期间）GPU完成对像素的计算和处理，从而确定每个像素的最终属性。在支持DX8和DX9规格的GPU中，这些工作由硬件实现的PixelShader（像素着色器）完成。最终输出：由ROP（光栅化引擎）最终完成像素的输出，1帧渲染完毕后，被送到显存帧缓冲区。总结：GPU的工作通俗的来说就是完成3D图形的生成，将图形映射到相应的像素点上，对每个像素进行计算确定最终颜色并完成输出。如今的游戏，单单从图象的生成来说大概需要下面四个步骤：1、Homogeneouscoordinates（齐次坐标）2、Shadingmodels（阴影建模）3、Z-Buffering（Z-缓冲）4、Texture-Mapping（材质贴图）在这些步骤中，显示部分（GPU）只负责完成第三、四步，而前两个步骤主要是依靠CPU来完成。而且，这还仅仅只是3D图象的生成，还没有包括游戏中复杂的AI运算。场景切换运算等等……无疑，这些元素还需要CPU去完成，这就是为什么在运行《魔兽世界》的时候，当场景切换时再强劲的显卡都会出现停顿的现象。首先从硬盘中读取模型，CPU分类后将多边形信息交给GPU，GPU再时时处理成屏幕上可见的多边形，但是没有只有模型出来后GPU将模型数据放进，显卡同时也为模型贴材质，给模型上颜色。CPU相应从中获取多边形的信息。然后计算光照后产生的影子的轮廓CPU计算出后，显卡的工作又有了，那就是为影子中填充深的颜色这一点要注意的是，无论多牛的游戏家用显卡，光影都是CPU计算的，GPU只有2个工作，1多边形生成。2为多边形上颜色。传统的GPU基于SIMD的架构。SIMD即SingleInstructionMultipleData，单指令多数据。其实这很好理解，传统的VS和PS中的ALU（算术逻辑单元，通常每个VS或PS中都会有一个ALU，但这不是一定的，例如G70和R5XX有两个）都能够在一个周期内（即同时）完成对矢量4个通道的运算。比如执行一条4D指令，PS或VS中的ALU对指令对应定点和像素的4个属性数据都进行了相应的计算。这便是SIMD的由来。这种ALU我们暂且称它为4DALU。需要注意的是，4DSIMD架构虽然很适合处理4D指令，但遇到1D指令的时候效率便会降为原来的1/4。此时ALU3/4的资源都被闲置。为了提高PSVS执行1D2D3D指令时的资源利用率，DirectX9时代的GPU通常采用1D+3D或2D+2DALU。这便是Co-issue技术。这种ALU对4D指令的计算时仍然效能与传统的ALU相同，但当遇到1D2D3D指令时效率则会高不少，例如如下指令：ADDR0.xyz,R0,R1//此指令是将R0,R1矢量的x,y,z值相加结果赋值给R0ADDR3.x,R2,R3//此指令是将R2R3矢量的w值相加结果赋值给R3对于传统的4DALU，显然需要两个周期才能完成，第一个周期ALU利用率75%，第二个周期利用率25%。而对于1D+3D的ALU，这两条指令可以融合为一条4D指令，因而只需要一个周期便可以完成，ALU利用率100%。但当然，即使采用co-issue，ALU利用率也不可能总达到100%，这涉及到指令并行的相关性等问题，而且，更直观的，上述两条指令显然不能被2D+2DALU一周期完成，而且同样，两条2D指令也不能被1D+3DALU一周期完成。传统GPU在对非4D指令的处理显然不是很灵活。GPU的功能更新很迅速,平均每一年多便有新一代的GPU诞生，运算速度也越来越快。2004年,2004年推出的GPUNvidiaGeForce6800Ultra可达到峰值40Gigaflops(1GigaFLOPS＝1秒钟进行10亿次的浮点运算)，2005年刚发布的NvidiaGeForce7800GTX更是将峰值提高至令人惊讶的169Gigaflops。而Intel3GHzPentium4采用SSE指令集也只能达到6Gigaflops（见图2）。GPU的运算速度如此之快，主要得益于GPU是对图形实时渲染量身定制的，具有两点主要特征：超长流水线与并行计算。GPU的执行速度很快，但是当运行从内存中获取纹理数据这样的指令时（由于内存访问是瓶颈，此操作比较缓慢），整个流水线便出现长时间停顿。在CPU内部，使用多级Cache来提高访问内存的速度。GPU中也使用Cache，不过Cache命中率不高，只用Cache解决不了这个问题。所以，为了保持流水线保持忙碌，GPU的设计者使用了多线程机制(multi-threading)。当像素着色器针对某个像素的线程A遇到存取纹理的指令时，GPU会马上切换到另外一个线程B，对另一个像素进行处理。等到纹理从内存中取回时，可再切换到线程A。但是使用这种方法有一个前提，线程A与线程B没有数据依赖性,也就是说两线程之间无需通讯。如果线程B需要线程A提供某些数据，那么即使切换到线程B，线程B仍是无法运行，流水线还是处于空闲状态。不过幸运的是，图形渲染本质上是一个并行任务。无论是CPU送给GPU的顶点数据，还是GPU光栅生成器产生的像素数据都是互不相关的，可以并行地独立处理。而且顶点数据（xyzw），像素数据（RGBA）一般都用四元数表示，适合于并行计算。在GPU中专门设置了SIMD指令来处理向量，一次可同时处理四路数据。SIMD指令使用起来非常简洁。此外，纹理片要么只能读取，要么只能写入，不允许可读可写，从而解决了存贮器访问的读写冲突。GPU这种对内存使用的约束也进一步保证了并行处理的顺利完成。为了进一步提高并行度，可以增加流水线的条数。在GeForce6800Ultra中，有多达16组像素着色器流水线，6组顶点着色器流水线。多条流水线可以在单一控制部件的集中控制下运行，也可以独立运行。在单指令多数据流（SIMD）的结构中，另外一种控制结构是多指令多数据流（MIMD），每条流水线都能够独立于其他流水线执行不同的程序。GeForce6800Ultra的顶点着色器流水线使用MIMD方式控制，像素着色器流水线使用SIMD结构。MIMD能比较有效率地执行分支程序，而SIMD体系结构运行条件语句时会造成很低的资源利用率。不过SIMD需要硬件少，这是一个优势。CPU中大部分晶体管主要用于构建控制电路（象分支预测等）和Cache，只有少部分的晶体管来完成实际的运算工作。而GPU的控制相对简单，而且对Cache的需求小，所以大部分晶体管可以组成各类专用电路、多条流水线，使得GPU的计算速度有了突破性的飞跃，拥有了惊人的处理浮点运算的能力。现在CPU的技术进步正在慢于摩尔定律，而GPU（视频卡上的图形处理器）的运行速度已超过摩尔定律，每6个月其性能加倍。大众硬件2004/09http://bbs.zol.com.cn/index20071229/index_231_194562.html

http://bbs.ccidnet.com/read.php?tid=207455

http://zhidao.baidu.com/question/295240.html?si=10&wtp=wk

献花(0)

(本文系yangshiquan...首藏)

类似文章 更多

发表评论：