资讯公告
瞻博网络推进人工智能网络软件的发展
发布时间:2024-07-21 发布者:FebHost

瞻博网络推进人工智能网络软件的发展


瞻博网络继续发展其人工智能原生网络平台,而 HPE 140 亿美元收购瞻博网络的交易继续通过必要的监管障碍。


瞻博网络(Juniper Networks)正在推进其 AI-Native Networking Platform 的软件,以帮助企业客户更好地管理和支持数据中心中的人工智能。这家被 HPE 收购的目标公司还为企业人工智能集群提供新的验证设计,并开设了一个实验室,对企业人工智能数据中心项目进行认证。


瞻博网络的AI-Native网络平台旨在将其园区、分支机构和数据中心网络产品统一在一个通用的AI引擎下。该平台的核心是该公司基于云的自然语言Mist人工智能和Marvis虚拟网络助理(VNA)技术。瞻博网络的Mist人工智能引擎可以分析来自网络接入点和设备的数据,从而发现异常并提供可行的解决方案。Marvis可以检测和描述无数的网络问题,包括有线或无线客户端持续故障、电缆故障、接入点覆盖漏洞、广域网链路问题以及射频容量不足等。


瞻博网络现在扩展了其平台,增加了一系列被称为人工智能运营(Ops4AI)的新功能。这些新增功能可实现拥塞控制、负载平衡和管理功能,适用于由供应商的核心 Junos 和基于意图的瞻博 Apstra 数据中心网络软件控制的系统。


面向人工智能的 Fabric 自动调整


瞻博网络产品、解决方案和营销负责人Amit Sanyal表示,针对网络拥塞问题,公司增加了一项名为面向人工智能的 Fabric autotuning 的功能,该功能可收集路由器和交换机的遥测数据,自动计算和配置用于 Fabric 拥塞控制的最佳参数设置。


"Sanyal写道:"在人工智能网络中,来自GPU的远程动态内存访问(RDMA)驱动着巨大的网络流量。"尽管采用了负载均衡等拥塞避免技术,但在某些情况下仍会出现拥塞(例如,在最后一跳交换机上,来自多个 GPU 的流量流向单个 GPU)。出现这种情况时,客户会使用数据中心量化拥塞通知(DCQCN)等拥塞控制技术。DCQCN 使用显式拥塞通知 (ECN) 和基于优先级的流量控制 (PFC) 等功能来计算和配置参数设置,以便在所有交换机上为每个端口的每个队列获得最佳性能。在所有交换机的数千个队列中手动设置这些参数既困难又容易出错"。


为了解决这个问题,瞻博网络Apstra收集遥测信息,并为每个端口的每个队列计算最佳ECN和PFC参数设置。Sanyal 写道,通过闭环自动化,网络中的所有交换机都能自动配置最佳设置。


Apstra 的工作原理是实时保存配置、遥测和验证信息,确保网络按照企业的要求运行。公司可以利用 Apstra 的自动化功能,为跨物理和虚拟基础架构的工作负载提供一致的网络和安全策略。此外,Apstra 还会定期进行网络检查,以保护配置。它与硬件无关,因此可以与瞻博网络的网络产品以及思科、Arista、戴尔、微软和 Nvidia 的产品集成。


负载平衡和可视性改进


在负载平衡方面,瞻博网络增加了对动态负载平衡(DLB)的支持,DLB可选择最佳网络路径,并提供更低的延迟、更高的网络利用率和更快的作业完成时间。Sanyal表示,从人工智能工作负载的角度来看,这将带来更好的人工智能工作负载性能和更高的昂贵GPU利用率。


"与传统的静态负载均衡相比,DLB 能显著提高 Fabric 带宽的利用率。但 DLB 的一个局限性是,它只能跟踪本地链路的质量,而不能了解从入口节点到出口节点的整个路径质量,"Sanyal 写道。"假设我们有一个 CLOS 拓扑,服务器 1 和服务器 2 都在尝试发送数据,分别称为 flow-1 和 flow-2。在 DLB 的情况下,leaf-1 只知道本地链路的利用率,并完全根据本地交换机质量表做出决定,而本地链路可能处于完美状态。但是,如果使用 GLB,就可以了解整个路径质量,其中的拥塞问题就存在于脊叶级别。

文章相关标签: 瞻博网络 Juniper 人工智能
购物车