资讯公告
Meta将Arista用于基于以太网的人工智能集群
发布时间:2024-10-21 发布者:FebHost

Meta将Arista用于基于以太网的人工智能集群


Arista Networks 正与 Meta Platforms 合作,在人工智能集群中部署其以太网技术,旨在处理大型语言模型、高带宽系统和云通信。


Meta Platforms 的前身是 Facebook,支持许多大型数据中心,并通过全球高带宽网络连接处理大量数据流量。据报道,Meta 将在其分解调度 Fabric (DSF) 中部署 Arista 的 7700R4 分布式 Etherlink 交换机,该 Fabric 采用多层网络,支持约 100,000 个 DPU。


Arista表示,7700R4 DES的开发吸收了Meta的意见。Arista云和平台产品管理副总裁Martin Hull在一篇博文中介绍了这一消息,他表示,基于之前使用Arista 7800R3的经验,Meta知道R系列架构在人工智能工作负载方面的优势,但希望有一个规模更大的解决方案,能够提供同样的优势和通往800G的平滑路径。Arista 7800R3是一款数据中心交换机,支持多达48个100GbE端口。该厂商的 R 系列交换机采用了一系列高密度、低延迟的网络组件。


“Hull 写道:"7700R4 就像一个单一的系统,具有专用的深度缓冲区,可确保整个基于以太网的人工智能网络的全系统无损传输。“DES不依赖拓扑结构,[超以太网联盟(UEC)]就绪,针对训练和推理工作负载进行了优化,采用100%高效架构,并提供现代人工智能中心所需的丰富遥测和智能功能。”


UEC 于去年由 AMD、Arista、Broadcom、思科、Eviden、HPE、英特尔、Meta 和微软成立,目前包括 75 家以上的供应商。该联盟正在开发旨在提高以太网网络的规模、稳定性和可靠性的技术,以满足人工智能对高性能网络的要求。UEC 规范将定义各种可扩展的以太网改进,包括更好的多路径和数据包传输选项,以及现代拥塞和遥测功能。


“网络性能和可用性在从我们的人工智能训练集群中提取最佳性能方面发挥着重要作用。正是出于这个原因,我们一直在继续为我们的人工智能集群推动后端网络结构的分解,"Meta 博客称。


“在过去的一年里,我们为下一代人工智能集群开发了分解式调度结构(DSF),以帮助我们开发开放的、与供应商无关的系统,并从整个行业的供应商那里获得可互换的构建模块。Meta 表示:"基于 DSF 的 Fabric 允许我们构建大型无阻塞 Fabric,以支持高带宽人工智能集群。


Meta 表示,基于 DSF 的 Fabric 还将包括 Meta 自己的 Fabric 网络交换机 MiniPack 3 和思科 8501 系列,这两种交换机都向后兼容以前的 200G 和 400G 交换机,并将支持升级到 400G 和 800G。


“Minipack3采用了Broadcom最新的Tomahawk5 ASIC,而Cisco 8501则基于Cisco的Silicon One G200 ASIC。这些高性能交换机采用 64x OSFP 端口,传输速率高达 51.2 Tbps,设计经过优化,无需使用重定时器即可实现最高能效。Meta 表示:"与以前的型号相比,它们的每比特功耗也大大降低。

文章相关标签: Meta Arista 人工智能集群
购物车