计算机系统---GPU

硬件架构

核心处理器：
- 流处理器（SP）：是GPU进行计算的核心单元，数量众多。例如，NVIDIA的高端GPU可能拥有数千个流处理器。它们可以并行执行大量的计算任务，如在图形渲染中对每个顶点或像素进行独立的运算。不同架构的流处理器在功能和性能上有所差异，新型架构的流处理器往往具有更高的计算效率和更低的能耗。
- 张量核心（Tensor Core）：这是NVIDIA在一些高端GPU中引入的特殊处理单元，主要用于加速深度学习中的张量运算。它能够高效地处理矩阵乘法和累加等操作，大大提高了深度学习模型的训练和推理速度。例如，在进行图像识别任务时，张量核心可以快速处理大量的图像数据，加速模型对图像特征的提取和分类。
- 计算核心集群（Compute Cluster）：多个流处理器会组成计算核心集群，协同工作以提高计算效率。这些集群可以根据任务的需求动态分配资源，例如在处理复杂的3D场景时，不同的计算核心集群可以分别负责处理不同区域的图形计算任务。
显存：
- 容量：显存容量决定了GPU能够存储多少图形数据。从早期的几兆字节发展到现在的几十甚至上百GB。例如，一些专业图形卡和用于深度学习的GPU配备了大容量的显存，以支持处理高分辨率的纹理、大型的3D模型以及深度学习中的大规模数据集。
- 位宽：显存位宽表示显存与GPU之间数据传输通道的宽度。常见的位宽有128位、256位、512位等。位宽越大，数据传输速度越快，例如，512位位宽的显存能够在单位时间内传输更多的数据，从而支持更高的分辨率和更复杂的图形处理。
- 类型：目前常见的显存类型有GDDR（Graphics Double Data Rate）系列，如GDDR5、GDDR6等。GDDR6相比GDDR5具有更高的频率和更低的延迟，能够提供更快的数据传输速度，从而提升GPU的整体性能。
纹理单元：
- 纹理采样：负责从纹理内存中读取纹理数据，并根据图形渲染的需求进行采样。例如，在渲染一个带有木纹纹理的桌子时，纹理单元会根据桌子表面每个点的坐标，从预先存储的木纹纹理图像中采样相应的颜色和细节信息。
- 纹理过滤：在采样过程中，为了避免纹理出现锯齿或模糊等问题，纹理单元会进行纹理过滤操作。常见的过滤方法有双线性过滤、三线性过滤等。双线性过滤通过对相邻的四个纹理像素进行加权平均来生成采样点的颜色，使纹理在不同缩放比例下都能保持较好的视觉效果。
光栅化单元：
- 三角形设置：在光栅化之前，需要将顶点数据组成三角形面片，这是3D图形渲染中最基本的图元。光栅化单元会根据顶点的坐标和连接关系，设置好每个三角形的参数，为后续的光栅化过程做准备。
- 像素填充：将三角形面片转换为屏幕上的像素点，并进行颜色填充。它会根据顶点的颜色、纹理信息以及光照模型等，计算出每个像素的最终颜色值。例如，在渲染一个红色的三角形时，光栅化单元会根据三角形顶点的颜色和纹理坐标，为每个像素填充相应的红色，并考虑光照效果对颜色进行调整。
- 深度测试：用于确定每个像素在场景中的深度信息，以解决遮挡问题。在渲染复杂场景时，可能会有多个物体重叠在一起，深度测试可以确保只有位于前面的物体的像素被显示出来，而被遮挡的物体的像素则被忽略。

工作原理

图形渲染流程：
- 顶点处理：首先，CPU将场景数据（如模型的顶点坐标、法线、纹理坐标等）发送给GPU。GPU的顶点着色器对这些顶点数据进行处理，包括坐标变换（将模型的局部坐标转换为世界坐标，再转换为屏幕坐标）、光照计算（根据光源的位置、强度和颜色，计算每个顶点的光照效果）等。例如，在渲染一个在阳光下的球体时，顶点着色器会根据球体上每个顶点的位置和法线方向，以及太阳的位置和光照强度，计算出每个顶点的受光程度，从而为球体表面添加光照效果。
- 几何处理（可选）：在一些复杂的图形渲染中，可能会使用几何着色器对经过顶点处理后的图形数据进行进一步的处理。几何着色器可以根据顶点数据生成新的几何图形，或者对现有图形进行修改和变换。例如，可以使用几何着色器实现粒子系统、毛发渲染等特殊效果。
- 光栅化：经过顶点处理和几何处理后，图形数据进入光栅化阶段。光栅化单元将图形转换为屏幕上的像素点。它会根据三角形的顶点坐标，确定每个像素在屏幕上的位置，并进行像素填充和深度测试等操作。
- 片段处理：在像素填充过程中，片段着色器会对每个像素进行进一步的处理。它会根据顶点的纹理坐标从纹理内存中采样纹理数据，并结合光照模型、材质属性等计算出每个像素的最终颜色值。例如，在渲染一个带有纹理的墙壁时，片段着色器会根据墙壁表面每个像素的纹理坐标，从纹理图像中采样相应的颜色，并考虑光照对纹理颜色的影响，最终确定每个像素的显示颜色。
- 输出合并：最后，经过片段处理后的像素颜色值和深度信息会被输出到帧缓冲中，与之前已经渲染好的图像进行合并。帧缓冲中的数据最终会被输出到显示器上，显示出最终的图形画面。
并行计算原理：
- 数据并行：GPU可以同时对多个数据进行相同的计算操作，这是通过其大量的流处理器实现的。例如，在进行图形渲染时，每个流处理器可以独立地处理一个顶点或一个像素的数据，多个流处理器同时工作，就可以并行处理大量的顶点和像素，大大提高了图形渲染的速度。
- 任务并行：除了数据并行，GPU还支持任务并行。不同的计算任务可以分配到不同的计算核心集群或处理单元上同时执行。例如，在同时进行图形渲染和深度学习推理的系统中，GPU可以将图形渲染任务分配给一部分流处理器，将深度学习推理任务分配给张量核心等其他处理单元，实现多个任务的并行处理，提高系统的整体性能。

主要功能

3D图形渲染：
- 几何处理：负责处理3D模型的几何数据，包括顶点坐标的变换、模型的平移、旋转和缩放等操作。通过这些操作，可以将虚拟的3D模型以正确的视角和比例呈现在屏幕上。例如，在游戏中，当玩家控制角色移动时，GPU会实时地对角色模型和场景中的其他物体进行几何变换，以保证它们在屏幕上的显示位置和姿态正确。
- 光照计算：模拟真实世界中的光照效果，为3D模型添加阴影、高光、反射等效果，使模型看起来更加逼真。GPU会根据光源的类型（如点光源、平行光、聚光灯等）、位置、强度和颜色，以及物体的材质属性（如漫反射系数、镜面反射系数等），计算出每个顶点和像素的光照效果。例如，在渲染一个金属球时，GPU会根据光源的位置和强度，计算出金属球表面的高光和反射效果，使其看起来具有金属的光泽。
- 纹理映射：将预先制作好的纹理图像应用到3D模型的表面，增加模型的细节和真实感。纹理可以是各种材质的图像，如木纹、墙壁的砖块纹理、皮肤纹理等。GPU通过纹理单元对纹理进行采样和过滤，将纹理图像准确地映射到模型表面的每个像素上。例如，在渲染一个木屋时，通过纹理映射可以将木纹纹理应用到木屋的墙壁和屋顶上，使木屋看起来更加真实。
视频解码与编码：
- 视频解码：支持各种视频编码格式的解码，如H.264、H.265、VP9等。在播放视频时，GPU可以分担CPU的解码任务，通过硬件加速实现流畅的视频播放。GPU的视频解码单元能够快速地解析视频流中的编码数据，将其转换为原始的图像数据，并进行色彩空间转换、分辨率调整等操作，最终输出到显示器上。例如，在观看高清视频时，GPU可以利用其硬件解码功能，快速地解码视频数据，避免出现卡顿和掉帧现象。
- 视频编码：一些高端的GPU也具备硬件编码功能，可用于视频录制、直播和视频转码等应用。在视频编码过程中，GPU可以将原始的图像数据按照指定的编码格式进行压缩编码，生成高质量的视频流。与软件编码相比，硬件编码具有更高的编码速度和更低的CPU占用率，能够在保证视频质量的同时提高编码效率。例如，在进行游戏直播时，GPU的硬件编码功能可以实时地将游戏画面编码为视频流，并以较低的延迟发送到直播平台上。
深度学习：
- 模型训练：在深度学习模型的训练过程中，需要进行大量的矩阵乘法、卷积运算和反向传播等操作。GPU的并行计算能力使其能够高效地处理这些运算，大大缩短了模型的训练时间。例如，在训练一个用于图像识别的卷积神经网络时，GPU可以同时对多个图像数据进行卷积运算，加速模型对图像特征的提取和学习。与使用CPU进行训练相比，使用GPU可以将训练时间从几天甚至几周缩短到几个小时或几天。
- 推理应用：在深度学习模型训练完成后，需要进行推理应用，即使用训练好的模型对新的输入数据进行预测和分类。GPU在推理过程中也能够发挥重要作用，它可以快速地处理输入数据，通过模型进行计算，并输出推理结果。例如，在人脸识别系统中，GPU可以利用训练好的深度学习模型，快速地对摄像头捕捉到的人脸图像进行特征提取和识别，实现快速准确的人脸识别。
科学计算：
- 计算流体力学（CFD）：在模拟流体流动、空气动力学等问题时，需要进行大量的数值计算。GPU可以通过并行计算加速这些计算过程，帮助科学家和工程师更快地获得计算结果，优化设计方案。例如，在汽车设计中，通过CFD模拟可以利用GPU计算汽车周围的气流分布，优化汽车的外形设计，降低风阻。
- 分子动力学模拟：用于研究分子和原子的运动和相互作用。GPU可以加速分子动力学模拟中的力场计算、积分运算等，提高模拟的效率和精度。例如，在药物研发中，通过分子动力学模拟可以利用GPU研究药物分子与生物靶点的相互作用，为药物设计提供理论支持。

性能指标

核心频率：
- 基础频率：是GPU在正常工作状态下的默认频率。例如，某款GPU的基础频率为1500MHz，表示其核心在常规运行时的工作频率为1500MHz。基础频率决定了GPU的基本计算能力，较高的基础频率通常意味着在相同时间内能够完成更多的计算任务。
- 加速频率：当GPU负载较高时，会自动提升频率以提高性能，这个提升后的频率就是加速频率。例如，在运行大型游戏或进行复杂的图形渲染任务时，GPU可能会将频率提升到1800MHz甚至更高。加速频率能够反映GPU在高负载情况下的性能表现，但过高的加速频率可能会导致功耗和发热量增加。
显存相关指标：
- 显存容量：如前面所述，显存容量决定了GPU能够处理的数据量。对于处理高分辨率纹理、大型3D场景或进行深度学习任务时，较大的显存容量可以避免数据溢出，提高性能。例如，在进行4K分辨率的游戏或训练大规模的深度学习模型时，需要较大的显存容量来存储纹理数据和模型参数。
- 显存位宽：位宽越大，数据传输速度越快。例如，512位位宽的显存相比256位位宽的显存，在单位时间内能够传输两倍的数据。这对于支持高分辨率的图形渲染和快速的数据交换非常重要，尤其是在处理复杂的场景和大量的纹理数据时。
- 显存频率：显存频率影响着数据的读写速度。较高的显存频率可以使GPU更快地获取和存储数据，从而提高性能。例如，GDDR6显存通常具有较高的频率，能够提供更快的数据传输速度，相比GDDR5显存，在相同位宽和容量的情况下，能够更好地满足GPU对数据带宽的需求。
计算能力：
- 单精度浮点运算能力（FLOPS）：用于衡量GPU在处理单精度浮点数运算时的速度，通常以每秒浮点运算次数来表示。例如，一款GPU的单精度FLOPS为10 TFLOPS，表示该GPU每秒可以进行10万亿次单精度浮点数运算。单精度浮点运算能力在图形渲染、深度学习和科学计算等领域都非常重要，是评估GPU性能的重要指标之一。
- 双精度浮点运算能力：对于一些需要更高精度计算的科学计算任务，如量子力学计算、气候模拟等，双精度浮点运算能力更为关键。双精度浮点数具有更高的精度，但计算量也更大，因此GPU的双精度浮点运算能力通常低于单精度浮点运算能力。一些专业的科学计算GPU会特别强调其双精度浮点运算能力，以满足特定领域的需求。
其他指标：
- 光线追踪性能：随着光线追踪技术的发展，GPU的光线追踪性能也成为了一个重要的指标。光线追踪能够真实地模拟光线在场景中的传播、反射、折射和阴影等效果，为图形渲染带来更加逼真的视觉效果。一些高端GPU专门配备了光线追踪核心，能够加速光线追踪计算，实现实时的光线追踪效果。例如，在一些支持光线追踪的游戏中，具有较强光线追踪性能的GPU可以实时渲染出真实的光影效果，如真实的反射、折射和软阴影等。
- AI性能指标：除了传统的计算能力指标外，针对深度学习和人工智能应用，还有一些专门的AI性能指标。例如，NVIDIA的Tensor Core性能指标用于衡量GPU在深度学习中的张量运算能力，它反映了GPU在加速深度学习模型训练和推理时的效率。此外，一些基准测试工具也会针对不同的AI任务，如图像识别、语音识别等，对GPU的性能进行评估和排名。