AWS和NVIDIA正在构建65ExaFLOPAI超级计算机

2023-12-01 09:18:21深情的哈密瓜

AWS和NVIDIA正在构建65ExaFLOPAI超级计算机

随着人工智能爆炸式增长,对更先进的人工智能(AI)基础设施的需求持续增长。为了满足这一需求,亚马逊网络服务(AWS)和NVIDIA扩大了战略合作,通过构建能够提供65ExaFLOP处理能力的新型强大AI超级计算机来提供增强的AI基础设施和服务。此次合作旨在整合两家公司的最新技术,将人工智能创新推向新的高度。此次合作的一个关键方面是AWS成为第一家提供NVIDIAGH200GraceHopper超级芯片的云提供商。这些超级芯片配备了多节点NVLink技术,这是人工智能计算领域的重大进步。GH200GraceHopperSuperchips提供高达20TB的共享内存,这一功能可以为TB级工作负载提供支持,而这种功能以前在云中无法实现。

新型人工智能超级计算机正在建设中

除了硬件进步之外,合作伙伴关系还扩展到云服务。NVIDIA和AWS将在AWS上托管NVIDIADGXCloud,这是NVIDIA的AI训练即服务平台。该服务将采用GH200NVL32,为开发人员提供单个实例中最大的共享内存。此次合作将使开发人员能够访问多节点超级计算来快速训练复杂的,从而简化人工智能开发流程。

65ExaFLOP处理能力

AWS和NVIDIA之间的合作伙伴关系还延伸到了雄心勃勃的ProjectCeiba。该项目旨在设计世界上最快的GPU驱动的人工智能超级计算机。AWS将托管这台超级计算机,该计算机将主要为NVIDIA的研发团队服务。ProjectCeiba超级计算机与AWS服务的集成将为NVIDIA提供一整套AWS的研发能力,从而有可能推动AI技术的重大进步。以下是您可能会对人工智能超级计算机主题感兴趣的其他一些文章:

富岳超级计算机交付理研科学研究所

剑桥大学Dawn第一阶段超级计算机启动

CrayXK6价值100万美元的超级计算机打破千万亿次浮点运算记录

300节点RaspberryPi超级计算机

使用NVIDIADGXA100创建的MetaAI超级计算机

合作概要

AWS将成为第一家将采用全新多节点NVLink技术的NVIDIAGH200GraceHopperSuperchips引入云的云提供商。NVIDIAGH200NVL32多节点平台将32个GraceHopper超级芯片与NVIDIANVLink和NVSwitch技术连接到一个实例中。该平台将在与Amazon强大的网络(EFA)连接的AmazonElasticComputeCloud(AmazonEC2)实例上提供,并由高级虚拟化(AWSNitroSystem)和超大规模集群(AmazonEC2UltraClusters)提供支持,使联合客户能够扩展数以千计的GH200超级芯片。

NVIDIA和AWS将合作在AWS上托管NVIDIADGXCloud(NVIDIA的AI训练即服务)。它将是第一个采用GH200NVL32的DGX云,为开发人员提供单个实例中最大的共享内存。AWS上的DGXCloud将加速尖端生成式AI和参数超过1万亿个的大型语言模型的训练。

NVIDIA和AWS正在开展ProjectCeiba合作,设计世界上最快的GPU驱动的AI超级计算机,这是一个采用GH200NVL32和AmazonEFA互连的大规模系统,由AWS为NVIDIA自己的研发团队托管。这台同类首台超级计算机配备16,384颗NVIDIAGH200超级芯片,能够处理65exaflops的AI,NVIDIA将使用它来推动下一波生成式AI创新。

AWS将推出另外三个新的AmazonEC2实例:P5e实例,由NVIDIAH200TensorCoreGPU提供支持,适用于大规模和尖端的生成式AI和HPC工作负载;以及G6和G6e实例,由NVIDIAL4GPU和NVIDIAL40SGPU提供支持分别适用于人工智能微调、推理、图形和视频工作负载等广泛的应用程序。G6e实例特别适合使用NVIDIAOmniverse(一个用于连接和构建支持AI的生成式3D应用程序的平台)开发3D工作流程、数字孪生和其他应用程序。

“从世界上第一个GPU云实例开始,AWS和NVIDIA的合作已超过13年。今天,我们为图形、游戏、高性能计算、机器学习以及现在的生成式人工智能等工作负载提供最广泛的NVIDIAGPU解决方案。”AWS首席执行官AdamSelipsky说道。“我们继续与NVIDIA一起创新,将下一代NVIDIAGraceHopperSuperchips与AWS的EFA强大网络、EC2UltraClusters的超大规模集群以及Nitro的高级虚拟化功能相结合,使AWS成为运行GPU的最佳场所。”

亚马逊NVIDIA合作伙伴

为了进一步增强其人工智能产品,AWS将推出三个由NVIDIAGPU提供支持的新AmazonEC2实例。其中包括由NVIDIAH200TensorCoreGPU提供支持的P5e实例,以及分别由NVIDIAL4GPU和NVIDIAL40SGPU提供支持的G6和G6e实例。这些新实例将使客户能够在AWS上构建、训练和部署他们的尖端模型,从而扩大人工智能开发的可能性。

AWSNVIDIADGX云托管

此外,AWS将托管由GH200NVL32NVLink基础设施提供支持的NVIDIADGX云。该服务将为企业提供快速访问多节点超级计算能力,使他们能够高效地训练复杂的。

为了促进生成式AI开发,NVIDIA发布了AWS上的软件,包括NVIDIANeMoRetriever微服务和NVIDIABioNeMo。这些工具将为开发人员提供探索人工智能开发新领域所需的资源。

AWS和NVIDIA之间的扩大合作标志着人工智能创新领域向前迈出了重要一步。通过整合各自的技术,这些公司将为生成式人工智能创新提供先进的基础设施、软件和服务。此次合作不仅将增强人工智能开发人员的能力,还将为人工智能技术的新进步铺平道路。随着合作的不断发展,人工智能开发的可能性可能达到前所未有的水平。

推荐阅读

阅读排行