你的位置:乱伦图片 > 打屁股 调教 >

草榴社区邀请码, 简便说说算力荟萃:集群互联,选RoCE依然InfiniBand?

发布日期:2025-01-02 09:19    点击次数:117

草榴社区邀请码, 简便说说算力荟萃:集群互联,选RoCE依然InfiniBand?

前段时刻写的著作《简便说说算力荟萃:什么是InfiniBand?》说到草榴社区邀请码,,AI管事器的数据通讯波及到3个部分:管事器里面通讯、AI集群内管事器之间通讯,以及跨集群的广域通讯。

丝袜美腿快播

管事器里面GPU之间的高速通讯主依次受NVLink,虽然,英伟达也在垄断NVLink来构建集群SuperPOD,但其赞助的GPU限制相对有限,主要应用于小限制跨管事器节点间的数据传输。大型AI集群主要依然依靠RDMA荟萃,也即是禁受RoCE或InfiniBand。

本文以典型英伟达A100管事器为例,详备证实一下各组件之间的联网架构。A100管事器里面的聚蕴蓄首样式如下图所示:

图片

A100管事器的主要模块包括:2个CPU、2张InfiniBand存储网卡(BF3 DPU)、4个PCIe Gen4 Switch芯片、6个NVSwitch芯片、8个GPU(A100)、8个InfiniBand网卡。8个GPU通过6个NVSwitch芯片全网状聚首(Full-mesh)。

1、主机里面GPU之间,禁受NVLink:A100双向带宽为12*50GB/s=600GB/s;A800是阉割版,双向带宽变为8*50GB/s=400GB/s2、主机里面GPU与网卡之间:GPU <--> PCIe Switch <--> NIC,表面上单向32GB/s3、跨主机GPU之间:

通过InfiniBand网卡收发数据。如下图所示:

图片

岂论是设想荟萃依然存储荟萃草榴社区邀请码,,齐需要RDMA智商称心AI所需的高性能。荟萃禁受Spine-Leaf架构:8块GPU通过InfiniBand网卡(HDR,200Gbps)直连到Leaf交换机,Leaf交换机通过Full-mesh聚首到Spine交换机,变成跨主机GPU设想荟萃。

A100中InfiniBand网卡禁受HDR,是因为HDR单向200Gbps(即25GB/s)已接近PCIe gen4单向32GB/s的表面速率。就算高配NDR(单向400Gbps,即50GB/s)作用也不大。论断:InfiniBand行为一种原生的RDMA荟萃,在无拥塞和低延伸环境下发扬凸起,但其架构相对顽固,资本较高(同等带宽下,InfiniBand性能比RoCE好20%以上,价钱却要贵一倍),因此,InfiniBand主要适用于中小限制集群场景。RoCE则凭借其锻练以太网生态、低组网资本以及快速期间迭代,更适用于中大型测验集群场景。举例,面前公有云管事商卖的8卡GPU主机基本齐是RoCE荟萃。 本站仅提供存储管事,悉数履行均由用户发布,如发现存害或侵权履行,请点击举报。