nvidia ai技术:在AI计算的舞台上
nvidia ai技术:在AI计算的舞台上NVIDIA NDR 400G InfiniBand网络互联方面,基于NVIDIA Quantum-2单芯片的交换机系统可提供64个NDR 400Gb/s InfiniBand端口(或128个NDR200端口),其端口密度比HDR InfiniBand高出三倍。NVIDIA Quantum-2模块化交换机提供了可扩展的端口配置选项,最高可提供2048个NDR 400Gb/s InfiniBand端口(或4096个NDR200端口),双向总吞吐量达到1.64 Pb/s,是上一代HDR InfiniBand模块化交换机系列的五倍。强大的平台基础设施是实现HPC和AI跨越式发展的关键。在NVIDIA HGX AI超级计算平台中,NVIDIA加入了三项关键技术——NVIDIA A100 80GB PCIe GPU、NVIDIA NDR 400G InfiniBand网络和NVIDIA Magnum
AI与HPC的融合正在加速。在2021年的ISC TOP500榜单中,有342个系统采用了NVIDIA技术提供加速,其中包括70%的新系统,与排名前10的8个。从行业应用来看,数据量的指数级增长让AI分析有了更广阔的商业空间,医疗、航空航天、教育、金融、制造、娱乐等各行各业都在利用数据挖掘更深层次的价值,尤以HPC与AI的结合具有代表性。正如NVIDIA创始人兼首席执行官黄仁勋所言,高性能计算正在经历多米诺骨牌效应,“这种效应始于几十年前通常在学术研究中心进行的模拟,此类实验室研究工作吸引了航空航天、医疗健康等多个行业的注意,但他们发现,这些研究对于其需要的各种巨量计算来说是不切实际的,直到后来加速计算和深度学习出现,人们才重新看到曙光。”
随着工作负载的复杂性与日俱增,多精度、混合精度计算被越来越多的场景所使用,其中,混合精度计算可以在单个操作中使用不同的精度级别,在不牺牲精度的情况下实现计算效率,在应用程序结束计算时累积得到的结果准确度,与双精度算法运算得到的结果相差无异,并且大幅提升了双精度的应用加速效果,减少了内存占用、功耗和运算时间,更适用于AI和HPC场景。由此而来,通过HPL-AI来评估HPC的混合精度计算性能也成为了新的基准之一。尽管这种测试专注于混合精度数学计算,但仍然提供了与Linpack相同的64位精度,这得益于HPL-AI的一种循环方法,能迅速优化一些计算。
在TOP500榜单中,有10个系统报告其HPL-AI得分是去年6月的五倍,大多数系统采用了3月发布的针对代码的重大优化,这是自田纳西大学的研究人员在2018年底发布该基准以来的首次升级。新软件简化了通信,实现了GPU间链路,消除了等待主机CPU的时间。它还以16位代码的形式实现通信,而不是在Linpack上默认使用的较慢的32位代码。美国橡树岭国家实验室(Oak Ridge National Lab,ORNL)的Summit是第一台采用 HPL-AI 基准的超级计算机,其在2019年宣布使用第一版代码的得分为445 Petaflop,而在今年峰会上使用最新版本的HPL-AI测试,得分达到1.15 Exaflops,采用该基准的其他超级计算机还包括日本的Fugaku(世界上最快的系统)、NVIDIA的Selene和德国的Juwels。
加速AI与HPC融合的基石
强大的平台基础设施是实现HPC和AI跨越式发展的关键。在NVIDIA HGX AI超级计算平台中,NVIDIA加入了三项关键技术——NVIDIA A100 80GB PCIe GPU、NVIDIA NDR 400G InfiniBand网络和NVIDIA Magnum IO GPUDirect Storage软件。与A100 40GB相比,A100 80GB PCIe GPU的内存带宽增加了25%,达到2TB/s,提供了80GB的HBM2e高带宽内存,大内存容量与高内存带宽可以保存更多的数据和更大的神经网络,最大限度地减少节点间通信和能耗,研究人员能够获得更高的吞吐量和更快得到结果,实现IT投资价值的最大化。
NVIDIA A100 80GB PCIe GPU
同时,A100 80GB PCIe GPU基于NVIDIA Ampere架构,该架构内置Multi-Instance GPU(MIG)功能,可为AI推理等小型工作负载提供加速。MIG允许HPC系统缩小计算和内存规模的同时并保证服务质量。除了PCIe,还有四卡和八卡的NVIDIA HGX A100配置。
网络互联方面,基于NVIDIA Quantum-2单芯片的交换机系统可提供64个NDR 400Gb/s InfiniBand端口(或128个NDR200端口),其端口密度比HDR InfiniBand高出三倍。NVIDIA Quantum-2模块化交换机提供了可扩展的端口配置选项,最高可提供2048个NDR 400Gb/s InfiniBand端口(或4096个NDR200端口),双向总吞吐量达到1.64 Pb/s,是上一代HDR InfiniBand模块化交换机系列的五倍。
NVIDIA NDR 400G InfiniBand
相比上一代,这款2048端口交换机的扩展能力增加了6.5倍,采用DragonFly 网络拓扑,只需三个网络Hop就能连接超过一百万个节点。第三代 NVIDIA SHARP 网络计算数据归约技术,比上一代的AI 加速能力提高了 32 倍,可大幅提升高性能产业和科学应用的性能。此外,NVIDIA UFM Cyber-AI平台还提供了网络自修复等管理功能,以及NVIDIA网络计算加速引擎,将数据中心的停机时间降至最低。基于行业标准的NVIDIA Quantum-2交换机(预计在年底前可出样品)具有向后和向前的兼容性,可以迁移和扩展现有系统和软件。
内存/存储方面,Magnum IO GPUDirect Storage提供了GPU内存和存储之间的直接内存访问,实现了优异的复杂工作负载处理性能。这条直接的通路让应用程序从低I/O延迟中受益,能够充分利用到网卡的全部带宽,减少CPU在通信中的负载,并可以管理逐渐增加的数据消耗所产生的影响。
NVIDIA Magnum IO GPUDirect Storage
目前,已有数十家合作伙伴将NVIDIA HGX平台用于新一代系统和解决方案,其中包括源讯、戴尔科技、HPE、联想、Microsoft Azure、NetApp等,另有思科、富士通、新华三、浪潮、超微、IBM、美光等分别支持了NVIDIA A100 80GB PCIe GPU、NVIDIA NDR 400G InfiniBand网络和NVIDIA Magnum IO GPUDirect Storage等新技术。
智能时代的5G创新
如今,基于ARM的高性能计算生态系统正在蓬勃发展,ARM开放、可定制的处理器架构已经支持用于云计算的Amazon Graviton、Ampere Computing的Altra处理器、用于存储服务器和5G基站的Marvell芯片、Fugaku、NVIDIA Grace等场景。在NVIDIA Aerial A100 AI-on-5G平台上,NVIDIA也扩大了对Arm架构CPU的支持,为5G生态系统带来更多选择。NVIDIA Aerial A100 AI-on-5G计算平台使用NVIDIA Aerial软件开发套件,并与内置16个Arm Cortex-A78处理器的NVIDIA BlueField-3 A100配套工作,构建了独立的融合卡,可以通过云原生5G vRAN提供企业级边缘AI应用,提升每瓦性能,加快部署速度。
AI-on-5G的演进
“我们将在计算AI和电信5G这两个领域携手合作,打造软件定义的基于5G的AI平台。”NVIDIA电信业务高级副总裁Ronnie Vasishta表示,“现在,通过支持Arm,我们不断发展的Aerial平台正在全面加速AI-on-5G。”由此,这些NVIDIA认证系统可以更简便地构建和部署自托管的vRAN,让私营企业、网络设备公司、软件制造商和电信服务提供商都能将AI和5G功能相融合,服务器制造商也可搭配使用 NVIDIA GPU 和 DPU,以构建超融合边缘数据中心。
NVIDIA Aerial A100 AI-on-5G支持Arm架构CPU
据了解,BlueField-3 A100包括NVIDIA丰富的AI软件库和Aerial 5G SDK,可以推动精密机器人、自动导向车,以及产品开发和制造并行等低延迟的企业AI项目。NVIDIA AI Enterprise可以兼容很多不同的加速CUDA应用、AI框架、预训练模型和在混合云中运行的软件开发套件。通过优化,工作负载能够跨多个节点进行扩展,通过全面的GPU虚拟化,支持大型深度学习训练模型。BlueField-3 A100能够与x86、Arm架构CPU一起部署,预计在2022年上半年发售。
近日,NVIDIA宣布将与谷歌云合作打造业内首个AI-on-5G创新实验室,让网络基础设施开发商和AI软件合作伙伴能够开发、测试和采用专业解决方案,该实验室会为企业提供谷歌云的Anthos平台和NVIDIA加速计算软硬件平台,让企业能利用数据和AI来提升业务绩效、提高运营效率并优化安全性和可靠性,预计在今年下半年开始开发。“此次与谷歌云的合作,将帮助网络运营商和基础设施开发商打造基于AI和机器学习的新的盈利中心。”Ronnie Vasishta说。
HPC的前沿应用新实践
ISC期间,NVIDIA宣布了NVIDIA HGX高性能计算平台将助力位于爱丁堡大学的DiRAC新一代超级计算机“Tursa”。DiRAC是英国面向天文学、宇宙学、粒子物理学及核物理学的理论建模和高性能计算(HPC)研究的综合超级计算系统管理机构,由其运营的各超算系统分别部署于剑桥大学、杜伦大学、爱丁堡大学和莱斯特大学。NVIDIA网络事业部高级副总裁Gilad Shainer表示:“DiRAC正在帮助研究人员解开宇宙的奥秘。我们正在与DiRAC合作,充分利用NVIDIA GPU、DPU和InfiniBand网络计算加速引擎的顶尖性能加速前沿科学探索中的广泛应用。”
Tursa超级计算机专为粒子物理计算进行了优化,是当前四台DiRAC新一代超级计算机中,第三台正式宣布将采用一或多个NVIDIA HGX平台技术进行加速,包括NVIDIA A100 Tensor Core GPU、NVIDIA HDR 200Gb/s InfiniBand网络和NVIDIA Magnum IO软件。最后一台DiRAC新一代超级计算机也将采用NVIDIA InfiniBand网络。研究人员能够使用Tursa对亚原子粒子的特性进行超高精度的计算,解析来自大型强子对撞机等大规模粒子物理学实验的数据。
据悉,由Atos建造的Tursa超级计算机计划于今年投入运行,其将配备总共448个NVIDIA A100 Tensor Core GPU,并且每个节点带有4个NVIDIA HDR 200Gb/s InfiniBand网卡。加上NVIDIA Magnum IO GPUDirect RDMA技术,能为使用晶格量子色动力学(LQCD - Lattice Quantum ChromoDynamics)的超大规模科学计算应用提供最高级别的节点间带宽和可扩展性。
此前,NVIDIA曾在GTC大会上公布了为剑桥大学打造的面向数据驱动型研究的CSD3系统,以及英国杜伦大学的全新COSMA-8超级计算机。其中,CSD3系统将在全新的、每秒4千万亿次级浮点计算能力的Dell-EMC系统的加持下性能进一步增强,为英国国家科研界的各个领域提供安全的、多租户的、裸金属性能的HPC、AI和数据分析服务,COSMA-8将被用于研究宇宙的起源。而位于莱斯特大学的第四个超算系统的更多细节,则会在今年晚些时候公布。
拓展HPC的多元化应用
结束语
从传统的高性能计算到新型的加速计算,再到AI与HPC的融合,以及云原生、云HPC的诸多应用,NVIDIA始终站在舞台的中央,推动着各行各业的前沿应用走向未来的创新。“行业面临的问题不再是计算机能够做什么,而是谁率先利用它来推动行业的革新。”黄仁勋说,“得益于各种进步,我们正处在行业高性能计算革命的开端。”
(7715874)