微软对ChatGPT的投资不仅仅涉及到对其制造商OpenAI的资金投入,还涉及到对数据中心的大规模硬件投资,这表明就目前而言,人工智能解决方案只是针对最顶级的公司。
微软和OpenAI之间的合作可以追溯到2019年,当时微软向这家人工智能开发商投资了10亿美元。它在1月份提高了投资额度,追加了100亿美元。
但ChatGPT必须在某些方面运行,那就是微软数据中心的Azure硬件。多少钱尚未披露,但根据彭博社的一份报告,微软已经在用于训练ChatGPT的硬件上花费了 "数亿美元"。
在两篇博客文章中,微软详细介绍了建立人工智能基础设施的情况,以运行ChatGPT作为必应服务的一部分。它已经为人工智能处理提供了基于Nvidia A100 GPU的虚拟机,称为ND A100 v4。 现在,它正在推出基于较新硬件的ND H100 v5虚拟机,并提供从8个到数千个NVIDIA H100 GPU的虚拟机规模。
Azure HPC+AI首席产品经理Matt Vegas在他的博文中写道,与ND A100 v4虚拟机相比,客户将看到AI模型的性能明显加快。新的虚拟机由Nvidia H100 Tensor Core GPU("Hopper "一代)提供动力,通过下一代NVSwitch和NVLink 4.0、Nvidia的400 Gb/s Quantum-2 CX7 InfiniBand网络、第四代英特尔至强可扩展处理器("Sapphire Rapids")与PCIe Gen5互连和DDR5内存相互连接。
只是他没有说有多少硬件,但他确实说微软正在向Azure客户提供多个exaFLOPs的超级计算能力。据我们所知,只有一台exaFLOP的超级计算机,根据最新的世界最快的TOP500半年度名单报告。橡树岭国家实验室的Frontier。但这就是关于TOP500的问题;不是每个人都会报告他们的超级计算机,所以可能还有其他和Frontier一样强大的系统,只是我们不知道而已。
在另一篇博文中,微软谈到了该公司如何开始与OpenAI合作,帮助创建ChatGPT的大型语言模型(以及微软自己的Bing Chat)所需的超级计算机。微软Azure高性能计算和人工智能产品负责人Nidhi Chappell表示,这意味着以一种新的方式将成千上万的GPU连接在一起,这甚至是Nvidia都没有想到的。
"这不是你买了一大堆GPU,把它们挂在一起,然后它们就会开始一起工作。有很多系统级的优化,以获得最佳的性能,而这是经过许多代人的经验总结出来的,"Chappell说。
为了训练一个大型语言模型,工作负载被划分到集群中的数千个GPU上,在这个过程的某些步骤中,GPU会交换它们所做工作的信息。一个InfiniBand网络将数据高速推送,因为验证步骤必须在GPU开始下一步处理之前完成。
Azure基础设施为大型语言模型训练进行了优化,但其人工智能平台经过多年的渐进式改进才达到这一目的。提供必应人工智能所需的GPU、网络硬件和虚拟化软件的组合是巨大的,分布在全球60个Azure地区。
ND H100 v5实例可供预览,并将成为Azure组合中的一个标准产品,但微软没有说何时。有兴趣的人可以申请访问新的虚拟机。
上一条: 威瑞信:.com域名的价格在2023年9月1日上涨
下一条: 印度宣布第一个半导体工厂即将诞生