快捷搜索:  汽车  科技

超级计算机的典型用途(可视化世界超级计算机的力量)

超级计算机的典型用途(可视化世界超级计算机的力量)HPCG:TOP500:Teraflops 排名因为超级计算机可以实现超过 1 万亿次的 flops,而消费类设备的功能要弱得多,所以我们使用 teraflops 作为比较指标。1 teraflop = 1 000 000 000 000 (1 trillion) flops

可视化世界超级计算机的力量

超级计算机(Supercomputer)是一种可以同时处理数十亿甚至数万亿次计算的机器。每台超级计算机实际上由许多并行工作的单独计算机(称为节点,Node)组成。

衡量这些机器性能的常用指标是 flops 或每秒浮点运算(floating point operations per second)。

在这个可视化中,我们使用了来自 TOP500 的 2021 年 11 月数据来可视化世界排名前五的超级计算机的计算能力。为了增加背景,比较中包括了许多现代消费设备。

Teraflops 排名

因为超级计算机可以实现超过 1 万亿次的 flops,而消费类设备的功能要弱得多,所以我们使用 teraflops 作为比较指标。

1 teraflop = 1 000 000 000 000 (1 trillion) flops

超级计算机的典型用途(可视化世界超级计算机的力量)(1)

TOP500:

超级计算机的典型用途(可视化世界超级计算机的力量)(2)

HPCG:

超级计算机的典型用途(可视化世界超级计算机的力量)(3)

GREEN500:

超级计算机的典型用途(可视化世界超级计算机的力量)(4)

树状图:

超级计算机的典型用途(可视化世界超级计算机的力量)(5)

超级计算机的典型用途(可视化世界超级计算机的力量)(6)

超级计算机的典型用途(可视化世界超级计算机的力量)(7)

超级计算机的典型用途(可视化世界超级计算机的力量)(8)

超级计算机的典型用途(可视化世界超级计算机的力量)(9)

Supercomputer Fugaku 于 2021 年 3 月亮完成,正式成为世界上最强大的超级计算机。它用于各种应用,包括天气模拟和创新药物发现。

神威太湖之光(Sunway Taihulight)正式成为中国顶级超级计算机,世界第四强大。尽管如此,一些专家认为,根据来自匿名来源的数据,该国已经在运行两个功能更强大的系统。

如您所见,最先进的消费类设备并没有接近超级计算能力。例如,它需要 4 000 块 Nvidia Titan RTX 显卡(可用的最强大的消费卡)的总和才能达到 Fugaku。

即将推出的超级计算机

中国未公开的超级计算机之一据称名为 Oceanlite,是神威太湖之光的继任者。据信它达到了 1.3 exaflops 或 1.3 quintillion flops。下表使跟踪所有这些大数字变得更加容易。

超级计算机的典型用途(可视化世界超级计算机的力量)(10)

在美国,竞争对手的芯片制造商 AMD 和 Intel 都赢得了美国能源部的合同,以建造百亿亿级超级计算机。在 AMD 方面,有 Frontier 和 El Capitan,而在英特尔方面,有 Aurora。

参与 EL Capitan 项目的还有 Hewlett Packard Enterprise(HPE),该公司声称这台超级计算机在 2023 年完工后将能够达到 2 exaflops。所有这些能力都将用于支持几项激动人心的努力:

● 启用高级仿真和建模以支持美国核储备并确保其可靠性和安全性。

● 通过与制药公司 GlaxoSmithKline 合作,将癌症药物的发现从六年加速到一年

● 了解与 30% 的人类癌症相关的 RAS 蛋白的动态和突变

总而言之,百亿亿次计算代表了在几秒钟而不是几小时内进行复杂分析的能力,这可以开启更快的创新步伐。

TOP #1 系统

在过去的 20 年中,以下系统跻身 TOP500 榜单的榜首:

超级计算机的典型用途(可视化世界超级计算机的力量)(11)

超级计算机的典型用途(可视化世界超级计算机的力量)(12)

超级计算机的典型用途(可视化世界超级计算机的力量)(13)

超级计算机的典型用途(可视化世界超级计算机的力量)(14)

超级计算机的典型用途(可视化世界超级计算机的力量)(15)

CM-5: Los Alamos National Lab,1993-06

1993 年 6 月,TOP500 榜单的前身首次发布时,第一名的位置是由 Thinking Machines Corporation 制造并安装在洛斯阿拉莫斯国家实验室(Los Alamos National Laboratory)的 CM-5 超级计算机。

CM-5 配备 1 024 个处理器,运行 Linpack 基准测试时的性能为 59.7 gigaflop/s。Thinking Machines 不仅获得了最高荣誉,而且该公司还构建了榜单前 10 名系统中的 5 个。

第一份清单是在德国曼海姆大学(University of Mannheim)的曼海默超级计算机研讨会(Mannheimer Supercomputer Seminar)上提出的。1993 年,这个想法诞生了,它放弃了对 Supercomputer 的固定定义,转而使用自适应措施。Erich Strohmaier 与 Hans Meuer 教授合作编制了第一份名单。这两个人知道全球至少有数百台矢量超级计算机,但很确定没有一千台。因此,他们决定列出具有实际基准结果的前 500 个系统,以消除非功能性系统。Strohmaier 认为这将是一次性交易,为此在他的计算机上创建了一个数据库。

但随后 Meuer 和 Strohmaier 决定看看该列表在五个月内会发生多少变化,并及时重新计算了该列表,以便在 1993 年 11 月在俄勒冈州波特兰(Portland Oregon)举行的超级计算会议上展示结果。然而,这一次,Strohmaier 决定创建一个能够随着时间推移跟踪系统的新数据库,他们想保持这个列表继续下去。

超级计算机的典型用途(可视化世界超级计算机的力量)(16)

Numerical Wind Tunnel: National Aerospace Laboratory of Japan,1993-11

当 1993 年超级计算机大会(Supercomputing Conference)上公布的第二个 500 强超级计算机名单时,它展示了一个新的排名第一的系统:日本国家航空航天实验室(National Aerospace Laboratory)的数值风洞(Numerical Wind Tunnel)。数值风洞是日本国家航空航天实验室和富士通联合项目开发的矢量并行架构的早期实现。第一次部署采用 140 个矢量处理器,并在运行 Linpack 基准测试时实现了 124.2 gigaflop/s 的性能。

该系统在 1994 年 6 月失去了第一名,但随着升级到 167 个处理器,数值风洞以 170 gigaflop/s 的 Linpack 性能重新夺回了第一名,直到 1995 年 12 月一直保持在榜首。具有接近 100 Gflop/s 的持续性能的超级计算机,适用于广泛的流体动力学应用程序。该系统的矢量处理器在 Ga-As 芯片中具有低至 60 ps 的 gate delay。

产生的循环时间为 9.5 ns。该处理器有四个独立的流水线,每个流水线能够并行执行两条乘加指令,从而使每个处理器的峰值速度达到 1.7 Gflop/s。每个处理器板都配备了 256 兆字节的中央存储器。

超级计算机的典型用途(可视化世界超级计算机的力量)(17)

Intel XP/S 140 Paragon: Sandia National Labs,1994-06

1993 年,桑迪亚国家实验室(Sandia National Laboratories)安装了 Intel XP/S 140 Paragon 超级计算机,该计算机在 1994 年 6 月的榜单上排名第一。该系统使用 3 680 个处理器,以 143.40 giGflop/s 的速度运行 Linpack 基准测试。它是第一台大规模并行处理器超级计算机,无疑是世界上最快的系统。英特尔为 Paragon 提供的操作系统 OSF-1 未能很好地扩展。Sandia 工程师将他们的轻量级内核 SUNMOS 移植到 Paragon。SUNMOS 和相关的运行时软件成为机器操作的基础。与此同时,Sandia 开始开发名为 PUMA 的第二代轻量级内核,该内核最终取代了 SUNMOS,英特尔和桑迪亚后来将其用作 Cougar 的基础,Cougar 是支持 ASCI Red 的轻量级内核。

Paragon XP/S 是加州理工学院于 1992 年推出的实验性 Touchstone Delta 系统的产品化版本。Paragon 系列基于 Intel i860 RISC 微处理器。多达 4 000 个 i860 连接在一个 2D 网格中。系统架构为分区系统,系统主体由无盘计算节点和少量 I/O 节点交互服务节点组成。由于大部分节点没有永久存储,因此可以通过将一组 I/O 节点与分类磁盘断开连接,然后连接未分类的 I/O 分区,将计算分区从分类“切换”到非分类。

超级计算机的典型用途(可视化世界超级计算机的力量)(18)

Hitachi SR2201: University of Tokyo,1996-06

在这段时间里,前六名名单的特点是美国和日本之间为争夺第一名而展开拉锯战。在 1996 年曼海姆(Mannheim)超级计算机上发布的第七个榜单显示,日本继续保持在榜首,但东京大学(University of Tokyo)取代了日本国家航空航天实验室(National Aerospace Laboratory)。排名第一的系统是由 Hitachi 制造的 1 024 个处理器的 SR2201。它在运行 Linpack 基准测试时达到了 232.4 gigaflops。

Hitachi SR2201 是 1996 年 3 月推出的分布式内存并行系统。它的处理器是基于 PA-RISC 1.1 架构的 150 MHz HARP-1E,通过伪向量处理(Pseudo Vector Processing,PVP)解决了缓存未命中问题。在 PVP 中,数据是通过预取到一个特殊的寄存器组来加载的,绕过缓存。每个处理器的峰值性能为 300 Mflop/s,使 SR2201 的峰值性能达到 600 Gflop/s。通过高速三维交叉网络可以连接多达 2048 个 RISC 处理器,该网络能够在每条链路上以 300 MB/s 的速度传输数据。

1996 年,TOP500 榜单的作者注意到了某些趋势。在第一个列表(1993 年 6 月)中,66% 的已安装系统基于 Emitter-coupled Logic(ECL);在 1996 年 6 月的列表中,列出的 500 个系统中只有 20% 是使用 ECL 构建的。

与这种演变并驾齐驱的是计算节点的趋势,即使用直接来自工作站的板构建并与工作站系统二进制兼容。最主要的例子是 Power Challenge、IBM SP/2 和 Convex SPP。总的来说,这些系统占所有 500 个系统的 53%。

超级计算机的典型用途(可视化世界超级计算机的力量)(19)

CP-PACS: University of Tsukuba,1996-11

第 8 次 TOP500 榜单由 Hitachi 制造的 2 048 处理器 CP-PACS 位居榜首,安装在日本筑波大学(University of Tsukuba)计算科学中心(Center for Computional Science)。该系统是 Hitachi SR2201 的非商业扩展,在运行 Linpack 基准测试时达到了 368.20 gigaflops。CP-PACS 项目旨在开发一种大规模并行计算机,实现高性能计算物理主要问题的数值研究。1991 年夏开始筹划,1992 年春向教育、科学和文化部提出的建议被批准为教育部学术研究新发展计划项目之一。为期五年的工程于 1992 年 4 月正式启动。

CP-PACS 并行计算机的开发涉及该项目的计算机科学家和物理学家的密切合作。一方面,对物理学家的计算需求进行了联合讨论,另一方面,在技术上可行的范围内可以满足这些需求的可能架构。CP-PACS 计算机的基本设计是通过这种合作完成的。1992 年夏天,通过正式招标程序,日立有限公司被选中制造 CP-PACS 计算机。项目成员与 Hitachi Ltd. 密切合作开发计算机。

超级计算机的典型用途(可视化世界超级计算机的力量)(20)

ASCI Red: Sandia National Laboratory,1997-06 至 2000-06

英特尔的 ASCI Red 超级计算机是第一台 teraflop/s 计算机,在 1997 年 6 月以 1.068 teraflop/s 的 Linpack 性能排名第 9 次 TOP500 的第一。

英特尔的 ASCI Red 标志着一个新的超级计算机时代的开始。在 90 年代中期,当矢量计算机开始变得不那么重要时,美国能源部的 Accelerated Strategic Computing Initiative(ASCI)计划专注于国防应用,开辟了全新的资金来源。ASCI Red 是该计划的第一个产品,为美国在超级计算机的生产和实施方面的主导地位奠定了基础。从技术角度来看,ASCI Red 也是一台了不起的超级计算机:

它是一个基于网格的 (38 X 32 X 2) MIMD 大规模并行机器,最初由 7 264 个计算节点、1 212 GB 的总分布式内存和 12.5 TB 的磁盘存储组成。这台机器的最初版本使用 Intel Pentium Pro 处理器,每个处理器的时钟频率为 200 MHz,后来升级到 Pentium II OverDrive 处理器。该系统总共升级到 9 632 个 Pentium II Over-Drive 处理器,每个处理器的时钟频率为 333 MHz。

它由 104 个机柜组成,占地约 230 平方米。该系统旨在使用商品大众市场组件并且具有很强的可扩展性。

ASCI Red 于 2005 年 9 月退役,此前 8 年时间里,他曾入选 17 次 TOP500 榜单。它是 1997 年 6 月至 2000 年 6 月 TOP500 榜单上最快的计算机,并在 2000 年 11 月的榜单上被劳伦斯利弗莫尔国家实验室(Lawrence Livermore National Laboratory)的 IBM 的 ASCI White 取代为第一名。

ASCI Red 是最后一款由英特尔单独设计和组装的超级计算机。当 ASCI Red 推出时,英特尔的超级计算机部门已经关闭。

超级计算机的典型用途(可视化世界超级计算机的力量)(21)

ASCI White: Lawrence Livermore National Laboratory,2000-11 至 2001-11

位于劳伦斯利弗莫尔国家实验室(Lawrence Livermore National Laboratory)的 IBM ASCI White 系统在 2000 年 11 月以 4.9 teraflop/s Linpack 性能排名第一。该系统由 512 个节点构成,每个节点包含 16 个使用共享内存的 IBM Power3 处理器。对于 HPC 中使用的系统,这种类型的分层架构变得越来越普遍。

到 2001 年 6 月,ASCI White 上的 Linpack 性能提高到 7.2 teraflop/s,在另外两个列表中保持在第一的位置。

ASCI White 位于劳伦斯利弗莫尔国家实验室的一个机密区域,被安置在 200 多个柜子中,覆盖了两个篮球场大小的空间,重达 106 吨。它包含 6TB 的内存,并拥有超过 160 TB 的 IBM TotalStorage 7133 串行磁盘系统容量。

超级计算机的典型用途(可视化世界超级计算机的力量)(22)

The Earth Simulator: Earth Simulator Center,2002-06 至 2004-06

位于日本横滨的地球模拟器中心(Earth Simulator Center)的地球模拟器超级计算机在 2002 年 6 月以 35.86 Tflop/s 的性能运行 Linpack 基准测试,是 IBM ASCI White 系统的 5 倍。这种强大的跨越式,一个系统比之前的顶级系统快了这么多,这在 TOP500 的历史上是绝无仅有的。性能差距也使地球系统连续五次排名第一。

地球模拟器是一个高度并行的矢量超级计算机,用于运行全球气候模型,以评估全球变暖的影响和固体地球物理学中的问题。该系统于 1997 年为日本宇宙航空研究开发机构(Japan Aerospace Exploration Agency)、日本原子能研究所(Japan Atomic Energy Research Institute)、日本海洋科学技术中心(Japan Marine Science and Technology Center,JAMSTEC)联合开发。1999 年 10 月开工建设,2002 年 3 月 11 日正式启用。工程造价 60 亿日元。

地球模拟器由 NEC 制造,基于他们的 SX-6 架构。它由 640 个节点组成,每个节点有 8 个向量处理器和 16 GB 的内存,总共有 5120 个处理器和 10 TB 的内存。每个 1 米 x 1.4 米 x 2 米的机柜安装了两个节点。每个机柜消耗 20 kW 的功率。该系统有 700 TB 的磁盘存储空间(450 用于系统,250 用于用户)和 1.6 PB 的大容量存储在磁带驱动器中。它能够对大气和海洋中的全球气候进行整体模拟,分辨率可达 10 公里。

超级计算机的典型用途(可视化世界超级计算机的力量)(23)

BlueGene/L: Lawrence Livermore National Laboratory,2004-11 至 2007-11

2004 年 11 月,DOE/IBM BlueGene/L beta 系统凭借其创纪录的 70.72 teraflop/s 的 Linpack 基准性能获得了第一的位置。该系统是在 IBM Rochester 站点组装和测试的。完成后,这台机器被转移到加利福尼亚州利弗莫尔的劳伦斯利弗莫尔国家实验室(Lawrence Livermore National Laboratory)。BlueGene/L 升级了 3 次,连续 7 次位居榜首。

2005 年 6 月,系统规模比原来的配置翻了一番,并达到了 Linpack 基准性能的新纪录,即 136.8 TFlop/s。到 2005 年 11 月,BlueGene/L 的大小再次翻了一番,并达到了 Linpack 基准性能的新纪录(280.6 TFlop/s)。当时,还没有其他系统超过 100 TFlop/s 的水平,因此预测 BlueGene/L 将在接下来的几版 TOP500 榜单中稳居榜首。

当 2007 年 11 月的榜单发布时,BlueGene/L 仍然位居榜首,经过显着扩展,达到了 478.2 TFop/s 的 Linpack 基准性能。但在连续七次领先之后,BlueGene/L 的第一名的统治即将结束。

超级计算机的典型用途(可视化世界超级计算机的力量)(24)

Roadrunner: Los Alamos National Laboratory,2008-06 至 2009-06

2008 年 6 月,新的 1 号系统是安装在美国能源部洛斯阿拉莫斯国家实验室(Los Alamos National Laboratory)并被称为 Roadrunner 的 IBM 系统。机器实现了 1.026 petaflop/s 的性能 - 成为有史以来第一台达到这一里程碑的超级计算机。同时,Roadrunner 也是 TOP500 中最节能的系统之一。

Roadrunner 系统基于 IBM QS22 刀片式服务器,该刀片式服务器使用索尼 PlayStation 3 中处理器的高级版本构建。Roadrunner 与许多当代超级计算机的不同之处在于它是一个混合系统,使用两种不同的处理器架构。该设计由 AMD 双核 Opteron 服务器处理器和连接到每个 Opteron 内核的 IBM PowerXCell 8i 处理器组成。Roadrunner 自 2002 年开始开发,并于 2006 年上线。由于其新颖的设计和复杂性,它分三个阶段建造,并于 2008 年全面投入运营。

到 2008 年 11 月,Roadrunner 略有增强,并发布了 1.105 petaflops 的 Linpack 基准性能。这使得该系统能够勉强抵御来自橡树岭国家实验室(Oak Ridge National Laboratory)的 Cray XT5 超级计算机 Jaguar 的挑战。

超级计算机的典型用途(可视化世界超级计算机的力量)(25)

Jaguar: Oak ridge National Laboratory,2009-11 至 2010-06

在第三次将绰号为 Roadrunner 的 IBM 超级计算机从 TOP500 超级计算机榜单中的头把交椅中击败后,被称为 Jaguar 的 Cray XT5 超级计算机终于在 2009 年 11 月的第 34 版榜单中排名第一。Jaguar 位于在能源部的 Oak Ridge Leadership Computing Facility。Jaguar 发布了 1.759 petaflop/s 的 Linpack 性能,成为第二台打破 petaflops 障碍的计算机。

自 2005 年安装为 25-teraflop Cray XT3 以来,Jaguar 系统经历了一系列升级。到 2008 年初,Jaguar 已成为 263-teraflop Cray XT4。2008 年,Jaguar 进行了扩展,增加了 1.4-petaflop Cray XT5。到 2009 年,最终的系统拥有超过 200 000 个处理核心,内部与 Cray 的 Seastar2 网络相连。Jaguar 的 XT4 和 XT5 部件使用 InfiniBand 网络组合成一个系统。

2010 年 6 月,Jaguar 凭借 1.759 petaflop/s 的 Linpack 性能保持了其第一系统的地位,尽管另一个系统的理论峰值性能更高。

超级计算机的典型用途(可视化世界超级计算机的力量)(26)

超级计算机的典型用途(可视化世界超级计算机的力量)(27)

超级计算机的典型用途(可视化世界超级计算机的力量)(28)

Tianhe-1A: National Supercomputing Center in Tianjin,2010-11

第 36 版 TOP500 榜单证实了传闻中的中国天河一号系统在天津国家超级计算机中心接管了头把交椅,达到了 2.57 petaflop/s 的性能水平。该事件标志着中国系统首次位居榜首。

2010 年 10 月,有关天河一号(意为天空之河)性能的谣言开始流传,并在该系统于当月在 HPC 2010 China 上亮相时得到证实。该超级计算机由中国国防科技大学(National University of Defense Technology,NUDT)设计,用于解决石油勘探和大型飞机设计模拟中的研究问题。

天河一号是一种混合设计,使用 14 336 个 Intel Xeon 处理器和 7 168 个 NVIDIA Tesla GPU 作为加速器。每个节点由连接到两个 Xeon 处理器的两个 GPU 组成。尽管处理器是由美国公司生产的,但天河一号互连是由中国研究人员开发的,它处理数据的速度大约是普通商业互连的两倍。

超级计算机的典型用途(可视化世界超级计算机的力量)(29)

K Computer: RIKEN Advanced Institute for Computational Science,2011-06 至 2011-11

2011 年 6 月,一台能够每秒执行 8.16 petaflop/s 的日本超级计算机成为新的第一系统,自 2004 年 11 月地球模拟器被废黜以来,日本首次重返榜首。该系统被称为 K 计算机的计算机位于神户的 RIKEN Advanced Institute for Computational Science(AICS)。K 计算机以日语单词 kei 命名,代表 10 千万亿。

富士通制造的 K 计算机最初组合了 68 544 个 SPARC64 VIIIfx CPU,每个 CPU 有 8 个内核,总共有 548 352 个内核 - 几乎是当时任何其他系统的两倍。K 计算机的功能也比列表中接下来的五个系统的总和还要强大。

2011 年 11 月,K 计算机在使用 705 024 个 SPARC64 处理内核的全面扩展后,保持了第一的位置,并成为第一台达到 10 petaflop/s 的计算机。升级后的系统在 Linpack 基准测试中达到了令人印象深刻的 10.51 petaflop/s。K 计算机也是列表中最节能的系统之一。

超级计算机的典型用途(可视化世界超级计算机的力量)(30)

Sequoia: Lawrence Livermore National Laboratory,2012-06

自 2009 年 11 月以来,美国超级计算机在 2012 年 6 月首次登上 TOP500 榜单。能源部劳伦斯利弗莫尔国家实验室(Lawrence Livermore National Laboratory)安装的名为 Sequoia 的 IBM BlueGene/Q 系统在运行 Linpack 基准测试时实现了 16.32 petaflop/s 的性能,使用 1 572 864 个内核。Sequoia 是第一个使用超过一百万个内核构建的系统。

Sequoia 主要是水冷的,由 96 个机架组成,98 304 个计算节点,160 万个核心和 1.6 PB 的内存。虽然比 ASC Purple 和 Blue Gene/L、Sequoia 等前代系统强大几个数量级,但相对于这些系统的峰值速度,其能效大约是 Purple 的 90 倍,是 BG/L 的大约 8 倍。

Sequoia 将使模拟能够以前所未有的详细程度探索现象。Sequoia 致力于 NNSA 的高级模拟和计算(Advanced Simulation and Computing,ASC)计划,以管理国家的核武器库存,这是 LLNL、洛斯阿拉莫斯国家实验室(Los Alamos National Laboratory)和桑迪亚国家实验室(Sandia National Laboratories)的共同努力。

超级计算机的典型用途(可视化世界超级计算机的力量)(31)

超级计算机的典型用途(可视化世界超级计算机的力量)(32)

超级计算机的典型用途(可视化世界超级计算机的力量)(33)

超级计算机的典型用途(可视化世界超级计算机的力量)(34)

Titan: Oak Ridge National Laboratory,2012-11

在 SC12 开始发布第 40 版榜单时,Titan 占据了第一的位置,这是一个 560 640 处理器系统,Linpack 性能为 17.6 petaflop/s。橡树岭国家实验室的 Titan 是 Cray XK7 系统,它依靠 GPU 和传统 CPU 的组合使其成为当时世界上最强大的超级计算机。Titan 的 18 688 个节点中的每一个都包含一个 NVIDIA Tesla K20 GPU 和一个 16 核 AMD Opteron 6274 CPU 处理器,使系统的峰值性能超过 27 petaflops。Titan 还拥有超过 700 TB 的内存。

Titan 对 GPU 的使用也为未来的科学超级计算机指明了方向。由于 GPU 提供了高性能和高能效的计算能力,它们将使超级计算系统变得更加强大,同时避免尺寸和功耗不断增长所固有的障碍。

两年来,研究团队一直在为 Titan 做准备,优化他们的代码以利用 GPU。Titan 的早期项目包括模拟材料的磁性、内燃机中的湍流燃烧、核动力反应堆中的中子传输以及长期气候变化。

超级计算机的典型用途(可视化世界超级计算机的力量)(35)

超级计算机的典型用途(可视化世界超级计算机的力量)(36)

超级计算机的典型用途(可视化世界超级计算机的力量)(37)

Tianhe-2(MilkyWay-2)天河二号(银河二号):国防科技大学(National University of Defense Technology),2013-06 至 2015-11

由中国国防科技大学开发的超级计算机天河二号在 Linpack 基准测试中以 33.86 petaflop/s(每秒千万亿次计算)的性能保持其世界第一系统的地位。它由中国国防科技大学与中国 IT 公司浪潮合作建造。据 NUDT 称,天河二号将用于模拟、分析和政府安全应用。

它拥有 16 000 个计算机节点,每个节点包括两个 Intel Ivy Bridge Xeon 处理器和三个 Xeon Phi 芯片,它代表着世界上最大的 Ivy Bridge 和 Xeon Phi 芯片安装,总计 3 120 000 个内核。16 000 个节点中的每一个都拥有 88 GB 的内存(Ivy Bridge 处理器使用 64 个,每个 Xeon Phi 处理器使用 8 GB)。CPU 和协处理器的总内存为 1 375 TiB(约 1.34 PiB)。

超级计算机的典型用途(可视化世界超级计算机的力量)(38)

Sunway TaihuLight 双威太湖之光:无锡国家超算中心(National Supercomputing Center), 2016-06 至 2017-11

太湖之光目前在位于无锡市的国家超级计算中心启动并运行。该系统将用于气候、天气和地球系统建模、生命科学研究、先进制造和数据分析等领域的各种研究和工程工作。

该超级计算机由国家并行计算机工程与技术研究中心(National Research Center of Parallel Computer Engineering & Technology,NRCPC)开发,该研究中心设计了太湖之光的前身神威蓝光系统(Sunway BlueLight),该系统安装在济南国家超级计算中心。BlueLight 是 796 teraflop 的超级计算机,于 2011 年部署。

BlueLight 由旧版本的神威处理器驱动,这是一种第三代 16 核芯片,称为 SW1600,最高可达 140 gigaflops。自该系统上线以来的五年中,NRCPC 开发了功能更强大的处理器 SW26010,这是一款 260 核芯片,可以产生超过 3 teraflops 的速度。

TaihuLight 在其 40 960 个节点中的每个节点中都有一个 SW26010,这在整个机器(超过 1000 万个内核)中增加了 125 个峰值 petaflops。当然,Linpack 会留下一些 FLOPS,但 93 petaflops 代表着可观的 74% 的峰值性能收益。

超级计算机的典型用途(可视化世界超级计算机的力量)(39)

Summit: DOE/SC/Oak Ridge National Laboratory,2018-06 至 2019-11

Summit 是 IBM 制造的超级计算机,现在在能源部(Department of Energy,DOE)橡树岭国家实验室(Oak Ridge National Laboratory,ORNL)运行,它在 High Performance Linpack(HPL)上以 122.3 petaflops 的性能获得了第一名,HPL 是 TOP500 榜单用于排名的基准。Summit 拥有 4 356 个节点,每个节点配备 2 个 22 核 Power9 CPU 和 6 个 NVIDIA Tesla V100 GPU。这些节点通过 Mellanox 双轨 EDR InfiniBand 网络链接在一起。

超级计算机的典型用途(可视化世界超级计算机的力量)(40)

Supercomputer Fugaku: RIKEN Center for Computational Science,2020-06 至 2020-11。

Fugaku 采用富士通的 48 核 A64FX SoC,成为榜单上第一个采用 ARM 处理器的系统。

超级计算机的典型用途(可视化世界超级计算机的力量)(41)

超级计算机的典型用途(可视化世界超级计算机的力量)(42)

猜您喜欢: