GPU服务器是一种服务器设备这种设备配备着高性能图形处理器也就是GPU 它的核心设计目标是要提供大规模并行计算能力。和传统CPU服务器不一样传统CPU服务器擅长串行逻辑运算GPU不一样它拥有着数千个计算核心 能够同时去处理大量简单计算任务 所以在人工智能训练领域在科学模拟领域在数据分析等领域它成为了基础设施的核心组件。硬件组成一台标准的GPU服务器通常包含以下关键部分GPU加速卡核心计算单元。眼下主流当中的型号涵盖了 H100 SXM5其具备80GB显存FP16 Core的算力为989 于稀疏模式下能够达到1979 并且显存带宽拥有3.35 TB/s 还有A100 80GB其显存带宽是2 TB/sFP16 Core算力为312 另外包含AMD 它有着128GB HBM2e显存FP16在理论方面的峰值是383 。每一台服务器一般情况下会配备4到8张GPU卡借助或者 桥接技术达成高带宽互连。用于数据调度、任务分发以及I/O处理的中央处理器一般采用双路Intel Xeon或者AMD EPYC处理器。比如说第四代Xeon 系列就像8480这一款它能提供56个核心这些核心被用来对GPU计算流程进行控制。内存其容量通常是在512GB至2TB这个范围之内属于DDR4或者DDR5 ECC内存以此确保在数据进行批量加载的时候不会变成瓶颈。存储方面本地存储常常会配置NVMe SSD其容量范围在1TB至8TB之间主要是用它来缓存训练数据或者模型部分服务器还会配备大容量SATA SSD当作数据仓库。网络接口其典型配置是至少要有两张速率为100 Gb/s的或者RoCE网卡这是用于集群内多个服务器进行并行通信的像是那种分布式训练的情况。比如说 - 2交换机平台它支持的速率是400 Gb/s。用于高端GPU服务器的散热系统像8卡H100系统这类其功耗能够高达10kW因而必须采用液冷或者高风压风冷的方案。就拿 DGX H100来说它的最大功耗大约是10.2kW所以要配置冗余的液冷管路。主要类型按应用场景GPU服务器可分为三类1. 训练服务器是针对大规模模型训练去做优化的比如说大语言模型这类。它典型的设计是四张到八张H100或者A100的配置上面配备着大量的显存整个显存合计起来能够达到640GB并且还有高速全连接它支持张量并行以及流水线并行模式。举个例子像一个有着八张卡的H100节点能够提供大约7.的稀疏FP16算力。2. 有一种服务器它专门被称作推理服务器其作用是针对已经完结训练的模型进行在线形式的或者离线形式的推理操作。这种服务器常常会采用低精度计算方式具体来说就是INT8或者FP8这种类型它对于延迟方面有着较高的要求。在常用的GPU设备当中包含了 L4它拥有24GB的显存INT8算力达到398 TOPS还有L40S它具备48GB的显存。其中单单一张L4就能够支撑大约100路处于实时状态的语音识别流。3. 多用途的虚拟化服务器借助 vGPU技术或者AMD MxGPU技术把单张GPU切割成多个虚拟设备让不同用户能够共享这种情况常见于科学计算搭建的集群或者云数据中心里。关键技术指标选购或评估GPU服务器时需关注以下量化参数半精度算力也就是FP16或者BF16它是训练大模型的核心指标其单位是也就是万亿次浮点运算每秒其中H100 SXM5非稀疏模式的算力为989 。关于整数精度INT8的算力它属于推理优化指标其中 H100 所能达到的算是 3,958 TOPS万亿次整数运算/秒是这个。核心能承载的模型大小以及吞吐量是由显存容量与带宽来决定的。A100具备着2 TB/s的带宽这表明在1秒钟的时间之内能够将2 TB的数据传输至核心。用于多卡互联的带宽方面 4.0的每一个通道其双向带宽是50 GB/s单个的H100具备18条链路其中有部分链路连接到相邻的GPU。PCIe版本以及通道数一般而言需要PCIe 5.0 x16能够给出大约64 GB/s的单向带宽。应用实例在大语言模型训练方面Meta的LLaMA 3 70B模型运用8192张H100 GPU来进行训练花费了大约10天时间 此外 这一模型在单服务器节点 也就是8卡的情况下 每秒钟能够处理大约2万token。分子动力学模拟 2024借助8张V100针对DHFR蛋白体系也就是约2.3万原子的体系达成每日450纳秒的模拟。实时进行渲染时那种配备了RTX 6000 Ada且拥有48GB显存的服务器能够于这个软件之中在8秒的时间范围以内将一帧4K的复杂场景给渲染出来。功耗与散热典型的4卡训练服务器其待机功耗大约是1.5kW在满负荷的状况下会超过4kW。对于机架部署而言需要按照15kW/机柜的标准来进行供电改造。液冷方案能够把PUE降低到1.1以下然而风冷通常不会低于1.4。基于实际工作负载对GPU服务器做选型大规模训练时应优先把高显存带宽以及全互联作为考虑要点 推理场景着重关注低延迟还有INT8算力科学计算需要双精度FP64性能像A100的19.5 。 在2025年之后 B200以及AMD MI400系列出现后,算力密度会进一步得到提升不过上述评估框架依旧适用。