思科发布了一款新的服务器和预配置设计,旨在帮助企业客户实施能够处理人工智能培训和工作负载的海量数据集和复杂算法的基础设施。
在服务器方面,思科发布了其统一计算系统(UCS)家族中功能更强大的成员--UCS C885A M8。这款8U机架式服务器基于Nvidia的HGX平台打造,旨在提供大型语言模型(LLM)训练、模型微调、大型模型推理和检索增强生成(RAG)等人工智能工作负载所需的加速计算能力。
新的 UCS C885A M8 系统采用了思科和 Nvidia 今年早些时候宣布扩大合作所产生的技术。两家公司正在为寻求建立人工智能基础设施的客户提供集成的软件和硬件包。
作为该声明的一部分,两家公司表示,Nvidia 的 Tensor Core GPU 将用于思科当前的 M7 UCS 机架和刀片服务器,包括思科 UCS X 系列和 UCS X 系列 Direct,以支持数据中心和边缘的人工智能和数据密集型工作负载。此外,两家公司还提供名为思科 Nexus HyperFabric AI 集群的 AI 交钥匙包,其中包括用于脊柱和叶片实施的思科 6000 系列交换机,支持 400G 和 800G 以太网 Fabric、GPU、Nvidia BlueField-3 DPU 和 SuperNIC 以及 AI 参考设计。
UCS C885A M8最多可配置8个Nvidia高密度H100和H200 Tensor Core GPU或AMD MI300X OAM GPU,以加速AI网络性能,还可配置Nvidia BlueField-3 DPU,以加速高密度GPU服务器集群之间的GPU数据访问。
据Nvidia称,Nvidia HGX包括多种网络选项--使用Nvidia Quantum-2 InfiniBand或Spectrum-X以太网,速度高达400 GB。
该服务器由思科Intersight管理,这是一个SaaS交付的软件包,可以从单一位置管理从Kubernetes容器到应用、服务器和超融合环境的各种系统。
思科预计,客户将把新服务器与最近发布的 Nexus 9364E-SG2 交换机结合起来。这款高密度 800G 聚合盒支持 400 Gbps 至 200 Gbps 和 100 Gbps 的端口速度,并包括对高速光网络连接开放系统外形增强型(OSPF)和四小外形可插拔双密度(QSPF-DD)的支持。
“为了训练 GenAI 模型,这些功能强大的服务器集群通常会协同工作,产生巨大的数据流,这就需要一个能够以最小延迟处理高带宽的网络结构。这正是新发布的 Cisco Nexus 9364E-SG2 交换机的优势所在,"Jeremy Foster 和 Kevin Wollenweber 在一篇博文中写道。Foster 是思科计算部高级副总裁兼总经理,Wollenweber 是思科网络、数据中心和提供商连接部高级副总裁兼总经理。
“Nexus 9364E-SG的高密度800G聚合可确保服务器之间的数据流顺畅,而先进的拥塞管理和大容量缓冲区可最大限度地减少数据包丢失,从而保持低延迟和高培训性能。Foster 和 Wollenweber 写道:"Nexus 9364E-SG2 是高度可扩展的网络基础设施的基石,允许人工智能集群随着组织需求的增长而无缝扩展。
上一条: 英国和欧盟计划成立新的开放云联盟