快捷搜索:  汽车  科技

ai算法测试个人总结(一文读懂国际权威AI基准测试MLPerf)

ai算法测试个人总结(一文读懂国际权威AI基准测试MLPerf)05.什么是封闭赛道和开放赛道,为什么MLPerf™的封闭赛道更受重视?04.为什么MLPerf™是目前业界最权威的AI基准测试?01.MLPerf™是什么?02.MLPerf™都有哪些参与者?03.为什么业界如此重视AI基准测试?

近日,国际权威AI基准测试MLPerf™ V1.0成绩榜单最新公布,引发了产业热议。作为目前最权威的衡量AI平台性能的国际竞赛,MLPerf™测试结果对客户评估各类AI平台非常有参考价值。

今天,我们用十个问题,解答你对MLPerf™可能存在的疑问,并带你揭秘最新公布的MLPerf V1.0 训练成绩背后的故事。

问题速览

MLPerf™十问十答

01.MLPerf™是什么?

02.MLPerf™都有哪些参与者?

03.为什么业界如此重视AI基准测试?

04.为什么MLPerf™是目前业界最权威的AI基准测试?

05.什么是封闭赛道和开放赛道,为什么MLPerf™的封闭赛道更受重视?

06.刚刚发布的MLPerf™训练V1.0竞赛都测试了哪些指标?

07.我们能从最新的MLPerf™ V1.0 封闭赛道夺冠情况中看出什么?

08.浪潮作为本次MLPerf™测试的单机性能“夺冠王”,其表现有什么亮点?

09.浪潮取得如此良好的成绩背后的原因是什么?

10.MLPerf™竞赛中取得的优异成绩对浪潮来说意味着什么?

01

MLPerf™是什么?

MLPerf™是全球权威的AI基准性能竞赛,它提供一套用于测量机器学习软硬件性能的通用基准,主要用来测量训练和推理不同神经网络所需要的时间,为评估各类AI平台在实际应用场景中的性能提供了权威有效的基准。目前,MLPerf™每年各举行两次AI训练和AI推理性能测试。

02

MLPerf™都有哪些参与者?

MLPerf™由图灵奖得主Patterson于2018年联合谷歌、哈佛、斯坦福等发起,其历届参赛成员涵盖了国际主流的芯片及系统厂商,包括Google、NVIDIA、Intel、阿里巴巴、腾讯、Inspur、Dell、Lenovo、QCT、Gigabyte、Fujitsu等。

03

为什么业界如此重视AI基准测试?

当前,AI的应用日益复杂化、多样化,AI芯片、系统厂商纷纷给出不同的标准,以证实其产品在计算性能、单位能耗等方面的水平。同时,用户非常关心如何能从厂商给出的信息中判断出AI算力是否能实际满足其真实场景的需求。AI基准评测迎合了用户这一需求,能够为用户衡量设备性能提供权威有效的数据指导。

04

为什么MLPerf™是目前业界最权威的AI基准测试?

首先,MLPerf™由国际最有影响力的企业和研究机构牵头,自推出就得到了国际主流厂商的支持和参与,其成员是目前基准测试里面最多的,社区非常活跃。其次,MLPerf™的评测任务和AI领域的前沿应用结合非常紧密,测试结果具有很大的应用参考价值。

最后,MLPerf™竞赛的参与厂商每年都投入巨大,其比赛成果也备受瞩目,每一次MLPerf™测试都能带来评测指标上的大幅性能提升,不断刷新业内纪录。以Resnet50为例,从2018年MLPerf™ training v0.5的6.2分钟快速提升至目前的0.23分钟,3年间性能提升了27倍,一次又一次给业界带来非常大的惊喜。

05

什么是封闭赛道和开放赛道,为什么MLPerf™的封闭赛道更受重视?

MLPerf™基准测试分为封闭赛道(Closed Division)和开放赛道(Open Division),厂商可自由选择以集群系统或单机系统的形式参与测试。

开放赛道不限制深度学习模型及精度的约束,只会限制使用相同的数据解决相同的问题,侧重于深度学习模型及算法优化的能力。封闭赛道要求使用相同模型和优化器,并限制学习率等超参数的值,它旨在硬件和软件系统的公平比较,考察的是软硬件系统优化的能力。

封闭赛道对于用户衡量AI系统性能更具参考价值。相较于开放赛道,厂商在封闭赛道内提交的成绩更多更全,其激烈的竞争也进一步提高了成绩的可对比性。

06

刚刚发布的MLPerf™训练V1.0竞赛都测试了哪些指标?

最新MLPerf™ 训练V1.0基准共设置8项任务:图像分类(ResNet)、医学图像分割(U-Net 3D)、目标检测(轻量模型SSD)、目标检测(重量模型Mask R-CNN)、语音识别(RNN-T)、自然语言处理(BERT)、推荐(DLRM)、强化学习(MiniGo),涵盖计算机视觉、自然语言理解、推荐、语音识别和强化学习等领域中的经典模型。与上一版本MLPerf™V0.7相比,MLPerf™训练V1.0移除了NLP场景中重复的Transformer与NMT模型,引入了新的语音识别与3D医学图像分割任务,更加贴近前沿AI应用场景。

07

我们能从最新的MLPerf™ V1.0 封闭赛道的夺冠情况中看出什么?

在集群系统测试中,谷歌与NVIDIA展开激烈争夺,最终谷歌获得了ResNet50、BERT、DLRM和SSD四项任务的第一,NVIDIA则夺得U-Net3D、Mask R-CNN、RNN-T和MiniGo四项任务冠军,双方在集群性能上平分秋色。

ai算法测试个人总结(一文读懂国际权威AI基准测试MLPerf)(1)

在单机性能测试中,浪潮获得ResNe50、BERT、DLRM和SSD四项任务的冠军, NVIDIA获得RNN-T和MiniGo两项第一,Nettrix获得U-Net3D、Mask R-CNN两项第一。浪潮在单机性能上具有绝对优势。

ai算法测试个人总结(一文读懂国际权威AI基准测试MLPerf)(2)

08

浪潮作为本次MLPerf™测试的单机性能“夺冠王”,其表现有什么亮点?

本次比赛,浪潮凭借卓越的软硬件优化能力将MLPerf™训练基准的单机效率进一步提升至新的高度。相比2020年MLPerf™训练v0.7榜单,浪潮刷新了图像分类、自然语言理解、目标检测(SSD)和智能推荐4项任务的单机训练性能纪录,将模型训练耗时分别缩短了17.95%、56.85%、18.61%和42.64%,凸显出顶级AI服务器在AI模型训练效率上的巨大价值。

在不断斩获MLPerf™冠军的同时,浪潮也把竞赛过程中探索出的高效优化方法回馈至MLPerf™社区,推动AI技术的共同进步。在MLPerf™ Training v0.7中,浪潮开创性提出效率更高的ResNet收敛性优化方案:在ImageNet数据集上,仅使用85%的迭代步数就达到了75.9%的目标精度,该优化方案将训练性能提升了15%。目前,该方案已被社区成员采纳,并广泛应用到MLPerf™™ Training V1.0测试中,这也是此次RenNet任务成绩得以大幅提升的重要原因。

09

浪潮取得如此良好的成绩背后的原因是什么?

浪潮在MLPerf™基准评测中的出色表现,得益于在AI计算系统创新上卓越的系统设计能力和全栈优化能力。在硬件层面,针对AI训练中常见的密集IO传输瓶颈,浪潮PCIe Retimer Free设计实现了CPU-GPU间通道免中继高速互联,大幅降低通信延迟,极大提升了AI训练效率;同时,针对高负载多GPU协同任务调度,对NUMA节点与GPU之间的数据传输进行全面优化和深度调校,确保训练任务中的数据IO无阻塞;此外,在散热层面,针对目前业界功率最高的500W 80GB A100 GPU,浪潮率先开发的先进片上液冷系统,确保GPU在全功率甚至超频负载下依然稳定工作,将AI计算系统的性能发挥到极致。

10

MLPerf™竞赛中取得的优异成绩对浪潮来说意味着什么?

首先,浪潮在MLPerf™中能取得优异成绩的能力建立在浪潮对客户应用场景的深入理解和长期技术积累之上,浪潮在客户业务支持、AI应用优化中所获得的洞察和实践,帮助浪潮在MLPerf™中建立领先优势,并取得优异成绩。与此同时,浪潮在MLPerf™中的深入探索和创新也帮助浪潮以更好的AI产品回馈客户,以冠军品质赋能客户AI业务。

猜您喜欢: