快捷搜索:  汽车  科技

芯片硬件知识(硬件前沿使用超级芯片为超大规模和)

芯片硬件知识(硬件前沿使用超级芯片为超大规模和)“Grace 使我们能够构建一个专为 AI 基础设施设计的 CPU,”Buck 说,并补充说,Grace 使用来自即将推出的 Arm 产品系列的标准 Arm v9 内核和标准指令集。“[Grace 是关于] 采用标准 Arm 内核并构建可以制造的最佳芯片 [以补充]我们用于 AI 工作流程的 GPU。”Grace 超级芯片具有组合 144 个 Arm CPU 内核和接近 1 TB/s 组合内存带宽,组合实现了 740 的 SPECint 速率(用于 GCC 编译器基准测试)。除了缩短求解时间外,另一种降低能耗的方法是减少超级计算工作负载某些部分的计算需求。“传统模拟不会去任何地方——我们将继续用第一原理物理学模拟气候科学、天气、分子动力学和蛋白质——但如果我们可以用人工智能增强某些类型的模拟,我们可以加快它们的速度,这样他们就可以做到他们需要用更少的时钟周期和更少的时间完成工作,”巴克说。

Nvidia在三月份的 GTC 会议上推出了超级芯片的概念。“超级芯片”是公司所说的带有两个计算芯片的模块;Grace Superchip 有两个 Grace CPU,Grace Hopper 超级芯片有一个 Grace CPU 和一个 Hopper GPU。

Grace Hopper 在 Grace CPU 和 Hopper GPU 之间具有 NVLink–C2C 900 GB/s 连接,有效地将 Hopper 的内存扩展至 600 GB(Hopper 单独有 80 GB)。这对于 AI 加速至关重要,因为 AI 模型的规模正在迅速增加;将整个模型保持在一个 GPU 上可以加快推理过程中的延迟(延迟对于运行实时 NLP 和推荐模型的超大规模计算机来说尤其重要)。据 Nvidia 称,这代表 15 倍于传统 CPU 数据传输率。

Grace Hopper已经在超级计算机中获得了关注,包括瑞士的 ALPS。

Nvidia 超大规模和 HPC 副总裁 Ian Buck 告诉 EE Times:“[HPC] 之所以有趣,是因为能源效率现在是一个非常重要的数字。” “对计算的需求并没有放缓。我们可以构建速度更快、性能更好、功耗更低的超级计算机,以取代以前性能可能较低的系统……您实际上可以通过迁移到性能更高的超级计算架构(如 Grace Hopper)来减少计算的能源足迹。”

除了缩短求解时间外,另一种降低能耗的方法是减少超级计算工作负载某些部分的计算需求。

“传统模拟不会去任何地方——我们将继续用第一原理物理学模拟气候科学、天气、分子动力学和蛋白质——但如果我们可以用人工智能增强某些类型的模拟,我们可以加快它们的速度,这样他们就可以做到他们需要用更少的时钟周期和更少的时间完成工作,”巴克说。总体效果是使用更少的能源。

芯片硬件知识(硬件前沿使用超级芯片为超大规模和)(1)

英伟达 3 月份在 GTC 上宣布了两款超级芯片(来源:英伟达)

格蕾丝超级芯片

Grace 超级芯片具有组合 144 个 Arm CPU 内核和接近 1 TB/s 组合内存带宽,组合实现了 740 的 SPECint 速率(用于 GCC 编译器基准测试)。

“Grace 使我们能够构建一个专为 AI 基础设施设计的 CPU,”Buck 说并补充说,Grace 使用来自即将推出的 Arm 产品系列的标准 Arm v9 内核和标准指令集。“[Grace 是关于] 采用标准 Arm 内核并构建可以制造的最佳芯片 [以补充]我们用于 AI 工作流程的 GPU。”

每个Grace CPU 与 16 个特制 LPDDR5X 内存小芯片(正面 8 个,背面 8 个)并排放置,其中包括数据弹性和 ECC 功能,使其适用于数据中心,而不是更典型的移动或边缘设备应用程序。这与 CPU 紧密结合,可为每个 Grace 提供 500 GB/s 的巨大内存带宽。

芯片硬件知识(硬件前沿使用超级芯片为超大规模和)(2)

英伟达的 Grace 超级芯片(来源:英伟达)

LPDDR(LP 代表“低功耗”)提供比标准 DDR 更好的每瓦性能。Buck 说,这和定制的外形尺寸有助于让 Grace 成为一款紧凑、高效的 CPU,并补充说 Grace 的每瓦性能大约是当今市场上其他 CPU 的两倍。

Grace 超级芯片不仅仅是为一个或多个 Hopper GPU 供电,它本身将用作科学工作负载的加速器。加速功能包括 Arm 的可扩展向量扩展,它支持可适应向量长度的向量级不可知 (VLA) 编程模型。VLA 意味着如果需要进一步使用更长的向量,则可以运行相同的程序而无需重新编译或重写。

“这是用于计算丰富的 CPU 工作负载的终极 CPU 功能,肯定会对这个空间感兴趣,”Buck 说。“在我们迄今为止所做的加速计算工作中,我们专注于花费大部分计算周期的应用程序。热门领域是分子动力学、一些物理工作、能源,还有一长串尚未移植到 GPU 的 HPC 应用程序。”

Buck 解释说,代码尚未移植到 GPU 的主要原因有两个。

“用 Fortran 编写的应用程序有很长的尾巴,无法修改,因为它们已通过特定用例或工作流程的认证,重写它们会以需要重新认证的方式改变其功能,”他说。“这些仍然是非常重要的工作负载,仍然需要支持并且仍然需要更好的 CPU。”

另一个原因是集成代码可用于诸如气候模拟之类的事情,其中​可能有数百个较小的数学模型。单独来说,它们可能不需要太多计算,但它们有很多,因此将它们全部移植需要很长时间。

“我们不仅可以通过提供 Hopper 来加速气候模拟,这将在 GPU 加速部分表现出色,还提供 Grace,这将有助于加速全球气候模型中正在使用的其余代码,该模型正试图从字面上模拟地球正在经历的一切,从太阳辐射到云层的形成,到洋流,到林业,再到热带雨林的呼吸方式……有大量的模拟并行运行。”

正如巴克指出的那样,虽然一些较小的模型运行时间不长,但阿姆达尔定律要求这些模型也应该加速以实现整体加速。“这就是格蕾丝将帮助做的事情,”他说。

新的超级芯片还将允许同构或异构计算的不同配置。

“我们正在进入一个非常有趣的领域,传统上我们[使用] 一个 CPU 芯片到四个 GPU 芯片,这是因为我们将我们的价值集中在 GPU 工作负载上,”他说。“可能有一个 CPU 来管理它,但也许有一个单独的 CPU 集群来处理 CPU 工作负载。”

“Grace Hopper 将是一次有趣的体验,因为现在您拥有一对一的比率,因此您可能会构建一台在 CPU 和 GPU 工作负载方面都非常出色的超级计算机,”他说。“我们认为这是非常有价值的,看看这将如何发挥作用很有趣。我们也有 Grace CPU 服务器,因此如果人们想以这种方式分解工作负载,他们仍然可以进行异构配置。”

超级芯片服务器

服务器制造商正在响应对高性能计算市场的兴趣,因为超级芯片可以提供性能。

芯片硬件知识(硬件前沿使用超级芯片为超大规模和)(3)

Grace Superchip服务器将于明年上半年从Supermicro提供(来源:Supermicro)

在本周的 Computex 上,服务器制造商 Supermicro、技嘉、华硕、富士康、QCT 和 Wiwynn 公布了使用 Nvidia 超级芯片制造服务器的计划。例如,Supermicro 表示最初将部署数量有限的 Grace 超级芯片服务器,从 2U 2 节点选择开始,随后会有更多配置。Supermicro 正在营销这些用于数字孪生、人工智能、高性能计算、云图形和游戏工作负载的服务器。

所有即将推出的服务器都将基于四种新的 2U Nvidia 设计,这些设计基于针对不同用例的单路、二路和四路配置。目前,这包括与 Grace Hopper 合作的 AI/HPC 设计、Grace 超级芯片的 HPC 设计以及 Grace 超级芯片加 GPU 设计,这些设计将用于数字孪生、协作、云图形和游戏。

首批配备 Grace superchips 和 Grace Hopper 的服务器应该会在明年上半年推出。

猜您喜欢: