草榴社区邀请码, 简便说说算力荟萃：集群互联，选RoCE依然InfiniBand？

发布日期：2025-01-02 09:19 点击次数：119

草榴社区邀请码，简便说说算力荟萃：集群互联，选RoCE依然InfiniBand？

前段时刻写的著作《简便说说算力荟萃：什么是InfiniBand？》说到草榴社区邀请码，，AI管事器的数据通讯波及到3个部分：管事器里面通讯、AI集群内管事器之间通讯，以及跨集群的广域通讯。

管事器里面GPU之间的高速通讯主依次受NVLink，虽然，英伟达也在垄断NVLink来构建集群SuperPOD，但其赞助的GPU限制相对有限，主要应用于小限制跨管事器节点间的数据传输。大型AI集群主要依然依靠RDMA荟萃，也即是禁受RoCE或InfiniBand。

本文以典型英伟达A100管事器为例，详备证实一下各组件之间的联网架构。A100管事器里面的聚蕴蓄首样式如下图所示：

图片

A100管事器的主要模块包括：2个CPU、2张InfiniBand存储网卡（BF3 DPU）、4个PCIe Gen4 Switch芯片、6个NVSwitch芯片、8个GPU（A100）、8个InfiniBand网卡。8个GPU通过6个NVSwitch芯片全网状聚首（Full-mesh）。

1、主机里面GPU之间，禁受NVLink：A100双向带宽为12*50GB/s=600GB/s；A800是阉割版，双向带宽变为8*50GB/s=400GB/s2、主机里面GPU与网卡之间：GPU <--> PCIe Switch <--> NIC，表面上单向32GB/s3、跨主机GPU之间：

通过InfiniBand网卡收发数据。如下图所示：

图片

岂论是设想荟萃依然存储荟萃草榴社区邀请码，，齐需要RDMA智商称心AI所需的高性能。荟萃禁受Spine-Leaf架构：8块GPU通过InfiniBand网卡（HDR，200Gbps）直连到Leaf交换机，Leaf交换机通过Full-mesh聚首到Spine交换机，变成跨主机GPU设想荟萃。

A100中InfiniBand网卡禁受HDR，是因为HDR单向200Gbps（即25GB/s）已接近PCIe gen4单向32GB/s的表面速率。就算高配NDR（单向400Gbps，即50GB/s）作用也不大。论断：InfiniBand行为一种原生的RDMA荟萃，在无拥塞和低延伸环境下发扬凸起，但其架构相对顽固，资本较高（同等带宽下，InfiniBand性能比RoCE好20%以上，价钱却要贵一倍），因此，InfiniBand主要适用于中小限制集群场景。RoCE则凭借其锻练以太网生态、低组网资本以及快速期间迭代，更适用于中大型测验集群场景。举例，面前公有云管事商卖的8卡GPU主机基本齐是RoCE荟萃。本站仅提供存储管事，悉数履行均由用户发布，如发现存害或侵权履行，请点击举报。

草榴社区邀请码, 简便说说算力荟萃：集群互联，选RoCE依然InfiniBand？

热点资讯