Back to Blog

基于国产PCIE4.0/5.0 SWITCH 的AI服务器PCIe拓扑及12Gb SAS Expander多盘位背板应用研究(二)

#人工智能

2.2 拓扑特性分析

BalanceMode的配置将 GPU 平均挂接 在 2

个 CPU 下,GPU PCIe总的上行带宽较高;Com

monMode在一定程度上能够满足 GPU 之间点对

点的通信,同时可保障足够的 CPU 与 GPU 之间

的I/O 带宽;Cascade Mode只有一条 ×16 链路,

但由于 GPU 之间通过 PCIeSwitch串接,提升了

点对点的性能,降低了延迟。

对于双精度浮点运算,因 GPU 计算需要使用

处理器与主内存,由于 Dualroot的拓扑上行带宽

与内存使用率提升,其性能会优于 Singleroot的

拓扑。

对于深度学习推理性能来说,具备并行计算能

力的 GPU 可以基于训练过的网络进行数十亿次

的计算,从而快速识别出已知的模式或目标。不同

拓扑下 GPU 的互联关系不同,GPU 之间的沟通会

影响深度学习推理的整体性能。

3 实验及结果分析

3.1 实验装置

为探究在不同应用条件下3种拓扑的性能差

异,实验使用自研 AI服务器(NF5468M5)搭建机

台进行测试。装置使用2颗 CPU,规格为IntelⓇ

XeonⓇ Gold6142,主频为2.60GHz;使用12条

DDR4内存,容量为32GB,主频为2666 MHz;使

用8颗 GPU,规格为 NVIDIA Tesla-V100_32G。

3.2

实验结果分析

3.2.1

点对点带宽与延迟

对于 GPU 的 P2P性能,可以使用带宽与延迟

来衡量。PCIe3.0 的带宽为 16GB/s,理想状况

下,实际应用中带宽可以达到理论带宽的80%左

右。PCIe的延迟主要取决于 PCIeTrace的长度、

走线路径 上 的 器 件 及 是 否 经 过 UPI、是 否 跨 RC

(RootComplex)等。

如图4所示,在 BalanceMode、CascadeMode

和 CommonMode3种拓扑中,分别测试挂在同一

个 PCIeSwitch下的 GPU (如图4中线路①)和跨

PCIeSwitch的 GPU(如图4中线路②)的点对点

带宽与延迟。测试结果如表1、表2及图5所示。

在同一个 PCIeSwitch下,由于 GPU 之间的

传输距离是一样的,所以在点对点回路①中,3种

拓扑的带宽与延迟结果皆相近;对于跨PCIeSwitc

的2颗 GPU,由于 CPU 间为3UPILinks,其信号

传输速度足够快,所以 BalanceMode与 Common

Mode的 结 果 相 近,而 对 于 Cascade Mode,由 于

GPU 之间的沟通只需经过 PCIeSwitch,传输路径

变短,其点对点延迟性能得以提升;同时,对于In

telCPU 而言,一个PCIe×16Port为一个 RC,不

同 RC 之 间 的 通 信 带 宽 比 同 一 个 RC 下 PCIe

Switch之间的通信差,故 CascadeMode的带宽也

得以提升。

=========12Gb SAS Expander多盘位背板================

*硬盘热插拔功能;
*灯态支持硬盘上电,读写,报错;
*SPGIO硬盘报错功能;
*硬盘分时启动;
*风扇温度控制;
* I2C(BMC);