AWS和NVIDIA正在构建65ExaFLOPAI超级计算机

2023-12-01 09:18:21深情的哈密瓜

随着人工智能爆炸式增长，对更先进的人工智能(AI)基础设施的需求持续增长。为了满足这一需求，亚马逊网络服务(AWS)和NVIDIA扩大了战略合作，通过构建能够提供65ExaFLOP处理能力的新型强大AI超级计算机来提供增强的AI基础设施和服务。此次合作旨在整合两家公司的最新技术，将人工智能创新推向新的高度。此次合作的一个关键方面是AWS成为第一家提供NVIDIAGH200GraceHopper超级芯片的云提供商。这些超级芯片配备了多节点NVLink技术，这是人工智能计算领域的重大进步。GH200GraceHopperSuperchips提供高达20TB的共享内存，这一功能可以为TB级工作负载提供支持，而这种功能以前在云中无法实现。

新型人工智能超级计算机正在建设中

除了硬件进步之外，合作伙伴关系还扩展到云服务。NVIDIA和AWS将在AWS上托管NVIDIADGXCloud，这是NVIDIA的AI训练即服务平台。该服务将采用GH200NVL32，为开发人员提供单个实例中最大的共享内存。此次合作将使开发人员能够访问多节点超级计算来快速训练复杂的，从而简化人工智能开发流程。

65ExaFLOP处理能力

AWS和NVIDIA之间的合作伙伴关系还延伸到了雄心勃勃的ProjectCeiba。该项目旨在设计世界上最快的GPU驱动的人工智能超级计算机。AWS将托管这台超级计算机，该计算机将主要为NVIDIA的研发团队服务。ProjectCeiba超级计算机与AWS服务的集成将为NVIDIA提供一整套AWS的研发能力，从而有可能推动AI技术的重大进步。以下是您可能会对人工智能超级计算机主题感兴趣的其他一些文章：

富岳超级计算机交付理研科学研究所

剑桥大学Dawn第一阶段超级计算机启动

CrayXK6价值100万美元的超级计算机打破千万亿次浮点运算记录

300节点RaspberryPi超级计算机

使用NVIDIADGXA100创建的MetaAI超级计算机

合作概要

AWS将成为第一家将采用全新多节点NVLink技术的NVIDIAGH200GraceHopperSuperchips引入云的云提供商。NVIDIAGH200NVL32多节点平台将32个GraceHopper超级芯片与NVIDIANVLink和NVSwitch技术连接到一个实例中。该平台将在与Amazon强大的网络(EFA)连接的AmazonElasticComputeCloud(AmazonEC2)实例上提供，并由高级虚拟化(AWSNitroSystem)和超大规模集群(AmazonEC2UltraClusters)提供支持，使联合客户能够扩展数以千计的GH200超级芯片。

NVIDIA和AWS将合作在AWS上托管NVIDIADGXCloud(NVIDIA的AI训练即服务)。它将是第一个采用GH200NVL32的DGX云，为开发人员提供单个实例中最大的共享内存。AWS上的DGXCloud将加速尖端生成式AI和参数超过1万亿个的大型语言模型的训练。

NVIDIA和AWS正在开展ProjectCeiba合作，设计世界上最快的GPU驱动的AI超级计算机，这是一个采用GH200NVL32和AmazonEFA互连的大规模系统，由AWS为NVIDIA自己的研发团队托管。这台同类首台超级计算机配备16,384颗NVIDIAGH200超级芯片，能够处理65exaflops的AI，NVIDIA将使用它来推动下一波生成式AI创新。

AWS将推出另外三个新的AmazonEC2实例：P5e实例，由NVIDIAH200TensorCoreGPU提供支持，适用于大规模和尖端的生成式AI和HPC工作负载;以及G6和G6e实例，由NVIDIAL4GPU和NVIDIAL40SGPU提供支持分别适用于人工智能微调、推理、图形和视频工作负载等广泛的应用程序。G6e实例特别适合使用NVIDIAOmniverse(一个用于连接和构建支持AI的生成式3D应用程序的平台)开发3D工作流程、数字孪生和其他应用程序。

“从世界上第一个GPU云实例开始，AWS和NVIDIA的合作已超过13年。今天，我们为图形、游戏、高性能计算、机器学习以及现在的生成式人工智能等工作负载提供最广泛的NVIDIAGPU解决方案。”AWS首席执行官AdamSelipsky说道。“我们继续与NVIDIA一起创新，将下一代NVIDIAGraceHopperSuperchips与AWS的EFA强大网络、EC2UltraClusters的超大规模集群以及Nitro的高级虚拟化功能相结合，使AWS成为运行GPU的最佳场所。”

亚马逊NVIDIA合作伙伴

为了进一步增强其人工智能产品，AWS将推出三个由NVIDIAGPU提供支持的新AmazonEC2实例。其中包括由NVIDIAH200TensorCoreGPU提供支持的P5e实例，以及分别由NVIDIAL4GPU和NVIDIAL40SGPU提供支持的G6和G6e实例。这些新实例将使客户能够在AWS上构建、训练和部署他们的尖端模型，从而扩大人工智能开发的可能性。

AWSNVIDIADGX云托管

此外，AWS将托管由GH200NVL32NVLink基础设施提供支持的NVIDIADGX云。该服务将为企业提供快速访问多节点超级计算能力，使他们能够高效地训练复杂的。

为了促进生成式AI开发，NVIDIA发布了AWS上的软件，包括NVIDIANeMoRetriever微服务和NVIDIABioNeMo。这些工具将为开发人员提供探索人工智能开发新领域所需的资源。

AWS和NVIDIA之间的扩大合作标志着人工智能创新领域向前迈出了重要一步。通过整合各自的技术，这些公司将为生成式人工智能创新提供先进的基础设施、软件和服务。此次合作不仅将增强人工智能开发人员的能力，还将为人工智能技术的新进步铺平道路。随着合作的不断发展，人工智能开发的可能性可能达到前所未有的水平。

声明：本站所有作品图文均由用户自行上传分享，仅供网友学习交流。若您的权利被侵害，请联系我们

上一篇：三星TVPlus更新带来了新的UI等下一篇：苹果向Arm支付每块芯片不到30美分的专利费

AWS和NVIDIA正在构建65ExaFLOPAI超级计算机

推荐阅读

苹果向Arm支付每块芯片不到30美分的专利费

据报道微软正在开发类似连续摄像头的电话链接功能

动视暴雪计划推出Android应用商店

谷歌通过更新修复了Chrome零日漏洞

主机 PC和云端XboxGamePass新增功能将于2023年12月上旬推出

三星智能手机今日最高折扣27%

vivoY100i智能手机发布天玑6020SoC 50MP主摄像头和44W充电售价约RM1046

苹果可能会将ActionButton放在整个iPhone16系列产品线上

用光缆测量周期性蝉的合唱

研究人员发明了拉伸金刚石以获得更好量子比特的新方法

阅读排行

网站分类

标签列表