英伟达t1000配什么cpu（性能媲美250台CPU服务器）

威哥 2023-04-04 07:28:32 149

英伟达t1000配什么cpu（性能媲美250台CPU服务器）1、医疗行业英伟达DGX-1超级计算机，能够做到让上述各行各业个开发者们均能方便快捷地享受到AI带来的便利。不过，构建一个AI平台不仅需要搭建包含许多GPU等硬件的服务器，还有诸多挑战：1、深度学习需要用海量数据以更好的完成特征提取，当数据量不断增大，传统硬件方案显得力不从心。人工智能（AI）可以是什么？英伟达在其系列视频《我是人工智能》中说，AI是医生，辅助Sigma Technologies 公司更早、更有效地检测和识别肺癌；AI是可靠的司机，帮助卡车制造商 PACCAR 实现车队的自动驾驶；AI是创作者，打造出从广告片直到剧情片等一系列具有惊人创意和情感的艺术作品；AI是辛勤的农夫，助力收割机Agrobot，旨在革新农业的未来；AI也是保卫者，协助肯尼亚政府追踪斑马的行动轨迹以使其免遭灭绝。

智东西（公众号： zhidxcom）编 | 智东西内参

深度学习（DL）是人工智能（AI）的一个热门研究领域。足够多的例子证明，深度学习能够发现高维数据中的复杂规律，可应用于科研、商业和军事等领域。如今，深度学习正在携手大数据、GPU计算共同引爆AI革命。

从打败世界围棋冠军的AlphaGo开始，人工智能声名鹊起，活跃在智慧医疗、自动驾驶、语音助手等诸多领域，逐渐浸入人们的生活。以智慧医疗为例，通过用海量来自行业的真实数据进行训练，人工智能可以快速高效地完成症状预判、预测潜在的药物分子活性、癌症早筛等任务，真正惠及于民。

而做出这一切成就的前提是拥有海量的数据和强大的算力。过去的半导体行业依赖于摩尔定律的推动，而GPU的出现为AI计算带来了新的动力。近十年来，GPU的长足发展，使之在通用计算方向拥有彪悍的数据处理能力，极大拓展了AI的应用范围。

不过，构建一个AI平台不仅需要搭建包含许多GPU等硬件的服务器，还有诸多挑战：

1、深度学习需要用海量数据以更好的完成特征提取，当数据量不断增大，传统硬件方案显得力不从心。

加速模型训练的神器

人工智能（AI）可以是什么？英伟达在其系列视频《我是人工智能》中说，AI是医生，辅助Sigma Technologies 公司更早、更有效地检测和识别肺癌；AI是可靠的司机，帮助卡车制造商 PACCAR 实现车队的自动驾驶；AI是创作者，打造出从广告片直到剧情片等一系列具有惊人创意和情感的艺术作品；AI是辛勤的农夫，助力收割机Agrobot，旨在革新农业的未来；AI也是保卫者，协助肯尼亚政府追踪斑马的行动轨迹以使其免遭灭绝。

英伟达DGX-1超级计算机，能够做到让上述各行各业个开发者们均能方便快捷地享受到AI带来的便利。

1、医疗行业

由美国麻省综合医院创立的机构CCDS的数据科学家拥有从全球各地不断汇入的海量医学影像，从16年12月收到第一代DGX-1 AI超级电脑开始，到现在CCDS已经开发出数十种深度学习训练算法，在放射学、心脏病学、眼科学、皮肤病学和精神病学等领域开展工作。

英伟达t1000配什么cpu（性能媲美250台CPU服务器）(1)

▲DGX系统协助CCDS数据科学家执行各种AI研究计划

将庞大的并行计算阵列引入临床设备非常困难，但NVIDIA Tesla系列GPU的强大算力使得紧凑的并行计算模块成为可能。在GPU上运行2001年研究所用的数据集时，其系统性能可以提升到每秒13至14帧。据该小组研究，NVIDIA的GPU比当时最新多核CPU至少快了70倍，而且对于较大规模的体纹理数据性能更为突出。

2、转舵AI的汽车行业

自动驾驶技术以超越人类的准确度和即时决策能力，有望改变人类旅行、货物运输以及城市设计，其市场2025年的估值为400亿美元，商机相当庞大。

自动驾驶需要高性能、低能耗的 AI 运算硬件。而为自动驾驶汽车提供高度精确感知系统的关键是快速开发和训练深度神经网络模型，以迅速收集和处理信息，即时决策来规避安全风险。

由沃尔沃汽车和供应商 Autoliv 共同创立的合资企业Zenuity拥有丰富的深度学习经验，Zenuity清楚地知道，要处理指数级增长的感测数据，深度学习训练平台不仅需要具有突破性的性能，还要能让研究人员迅速测试模型，缩短开发周期，避免把时间浪费在设计打造软硬件以及排查故障上。

最终，Zenuity选择了DGX-1深度学习平台，Zenuity深度学习部门经理Benny Nilsson 表示：“DGX-1无疑是AI和深度学习领域的黄金标准”。

英伟达t1000配什么cpu（性能媲美250台CPU服务器）(2)

▲Zenuity自动驾驶汽车

3、实时视频检测与分析

深度学习技术的兴起，也为视频内容分析提供了新的途径。目前深度学习计算框架更多运行在单个节点上，多节点之间的扩展性较差，深度学习模型主要依赖于单精度运算，可在有限空间中承载更大的模型。而NVIDIA DGX-1的强悍参数使它足以胜任庞大的深度学习任务。

中科院自动化研究所模式识别国家重点实验室也利用NVIDIA DGX-1来为实现实时的视频超分辨率而提速。所谓视频超分辨率，即是从低分辨率视频中恢复高分辨率视频，相比基于CPU的计算，DGX-1将速度提升超过50倍，并达到实时处理的效果。

英伟达t1000配什么cpu（性能媲美250台CPU服务器）(3)

▲中科院自动化研究所模式识别国家重点实验室的视频超分辨率研究

4、网易全产业链AI

受益于DGX-1的性能优势，网易得以更快、更准确的训练模型，优化翻译引擎的响应速度，支持智能化服务新玩法的落地。未来，除了音乐和游戏业务外，网易在包括云计算、教育、新闻、电商等全产业链业务都将加持AI技术。

网易感知与智能中心的技术专家刘东认为，中心大量使用GPU来进行深度学习训练，DGX-1带来主要的好处是加速模型训练，此前在单节点上进行中等规模的数据集训练可能需要1个月的时间，现在使用DGX-1大约7-10天就会有结果，也就是说能试验更多的算法，产品更新也会更快。

英伟达t1000配什么cpu（性能媲美250台CPU服务器）(4)

高性能背后的秘密，DGX-1系统组件详解

前面说了那么多NVIDIA DGX-1深度学习超级计算机的应用，它为何有如此强大的算力呢？

顾名思义，DGX-1是一个专为深度学习打造的集成系统，能够为几百上千层神经网络提供高性能计算（HPC）能力。

在DGX-1问世时，NVIDIA创始人兼CEO黄仁勋曾说过，3000人花了3年才研发出这样一款深度学习超级计算机，足见其研发难度之高。

每台DGX-1配有8块NVIDIA Tesla系列V100 GPU加速器，其性能相当于250台传统CPU服务器，其使用的高性能NVLink GPU互联技术大大提高深度学习训练的扩展性。

英伟达t1000配什么cpu（性能媲美250台CPU服务器）(5)

▲搭载V100的DGX-1系统组件

搭载Tesla V100的NVIDIA DGX-1主要有如下几个组件：

1、 NVIDIA Tesla V100

Tesla V100是NVIDIA最新款加速器，Volta架构是NVIDIA第一款专为AI打造的Tensor核心技术的GPU架构，为DGX-1提供了更高的AI和HPC计算能力。每个V100加速器配有的GV100 GPU包含80个流多元处理器（SM）。

英伟达t1000配什么cpu（性能媲美250台CPU服务器）(6)

▲Tesla V100加速器

2、NVIDIA NVLink技术

每个Tesla V100拥有6个NVLink连接，分别具有50GB/秒的双向带宽，双向总带宽每秒达300GB。当扩展到所有8个GPU时，NVLink的优势最大，其总体性能优势比PCle高出约30%。

3、双路Intel Xeon CPU

DGX-1内置了两块CPU，用于开机、存储空间管理和深度学习机构协调。

4、QUAD EDR IB

DGX-1配有4个QUAD EDR IB（扩展数据速率InfiniBand）端口，兼具高频带宽与低延迟特性，总双向通信传输速率达到每秒800GB。

5、三个机架单位的封闭式设计

为了节省电量，DGX-1采用三个机架单位的封闭式设计，可置入精巧的机架空间。

英伟达t1000配什么cpu（性能媲美250台CPU服务器）(7)

DGX-1的亮点黑科技

除了拥有出色的硬件设计外，DGX-1还拥有专门针对深度学习的系统软件和强大软件库，经过和NVLink以及8个GPU的配合，DGX-1能为生产和研究领域提供灵活的深度学习应用开发和部署平台。

借助集成的NVIDIA深度学习软件堆栈和DGX-1云管理服务，DGX-1可以在短短一天的时间开始深度学习任务，同时将设置工作减至最少，使得用户无需花费数月的时间来集成、配置和排除硬件软件故障。

这里，我们将详解Tesla V100采用的NVLink技术和 DGX-1 软件两大亮点。

1、NVLink

考虑到通信运营成本较高，开发者必须通过计算重叠数据传输或通过 PCIe 互联仔细编排GPU 访问以大幅提升性能。随着GPU 运行速度越来越快，以及GPU/CPU 比率不断攀升，更高性能的GPU 互联技术为用戶提供了更灵活的通信调度，亦需要其来正确平衡更高的GPU 吞吐量。这项挑战促使了NVLink 高速互联技术的问世。

NVLink是NVIDIA打造的世界上第一个灵活可扩展的高速GPU互连方案，该技术可实现NVIDIA GPU 与同代GPU 或支持NVLink 的CPU 以及节点内其他设备之间的连接。

NVLink 使用NVIDIA 全新高速信号互联技术(NVHS)。NVHS 通过差分对传输数据，速率高达25 Gb/ 秒。其中8 个差分连接组成“ 子链路” (子链路负责一个方向的数据传输)，两个子链路(一个子链路对应一个方向)组成一个“ 链路” (一个链路可连接两个处理器，如GPU 到GPU 或 GPU到CPU)。单个链路支持端点间高达50 GB/ 秒的双向带宽。多个链路可整合至一起，以实现处理器间更高的带宽。Tesla V100 采用的NVLink 可支持多达6 个链路，实现理论上的最大双向总带宽，即300 GB/ 秒。

英伟达t1000配什么cpu（性能媲美250台CPU服务器）(8)

▲DGX-1采用8-GPU的混合立体互联网络拓扑

2、DGX-1软件

目前已有可以大规模运行深度学习的DGX-1 软件。其主要目标是让从业者能够在DGX-1 上部署深度学习框架和应用程序，同时将设置工作减至最少。该平台软件的设计理念为最大限度地减少服务器上安装的操作系统和驱动程序，并通过由NVIDIA 维护的DGX Container 注册表在Docker容器内配置全部应用程序和SDK 软件。DGX-1 的可用容器包括多个经优化的深度学习框架、第三方加速解决方案及NVIDIA CUDA 工具包。

英伟达t1000配什么cpu（性能媲美250台CPU服务器）(9)