arm发布的新架构(Marvell的Arm服务器芯片野心)
arm发布的新架构(Marvell的Arm服务器芯片野心)例如在收购了Arm服务器先驱Applied Micro之后,Ampere成为竞争者,凯雷投资集团(Carlyle Group)则是其支持者,前英特尔总裁雷尼·詹姆斯(Renee James)作为其首席执行官。Ampere将Applied Micro的“ Skylark” X-Gene 3处理器的变体作为32核eMAG 8180并投入了该领域,他们主要是在追逐超大规模生产者和云构建者,而不是HPC中心。从那以后,大量的从桥下流过。首先,因为Broadcom交易的干扰,迫使高通重新考虑其“ Amberwing” Centriq 2400 Arm服务器芯片的未来 ,反过来又迫使微软重新考虑其Arm服务器芯片CPU的合作伙伴。因为据之前报道,高通公司的Arm服务器芯片上会被Microsoft Azure采用。随着这一切的进行,新博通(Broadcom)对其“ Vulcan” Arm服务器芯片系列失
来源:内容由半导体行业观察(icbank)编译自「nextplatform」,作者:Timothy Prickett Morgan,谢谢。
如果你要在服务器处理器上取代英特尔芯片,那就必须机灵像从英特尔台式机跳到数据中心一样的漫长的历程。现在,Arm服务器芯片供应商Cavium是芯片巨头Marvell的一部分,而大部分公司也已经退出了市场,以Marvell的优势,ThunderX服务器芯片系列未来也将会持续上演相同的戏码。
对于Cavium或者Marvell来说,最好的事情之一就是Avago收购了Broadcom,因为Broadcom以前是一家没有太多耐心的公司,并且他们的工作方向是最大程度地挤占已建立的利基市场。当阿茹娜,这个策略没有任何问题。但我们也应该看到,迄今为止,每位Arm服务器玩家都做过大赌注和大冒险。
无论如何,因为Avago于2015年5月以高达370亿美元的价格收购了Broadcom并把公司命名为新博通,因为Avago的创始人Hock Tan喜欢从传统业务中获得丰厚利润的老牌公司,这也是新博通以189亿美元收购CA的唯一解释。又因为Broadcom在2017年11月试图以1 170亿美元的价格收购芯片竞争对手Qualcomm,因此Cavium获得了三倍的幸运:
首先,因为Broadcom交易的干扰,迫使高通重新考虑其“ Amberwing” Centriq 2400 Arm服务器芯片的未来 ,反过来又迫使微软重新考虑其Arm服务器芯片CPU的合作伙伴。因为据之前报道,高通公司的Arm服务器芯片上会被Microsoft Azure采用。随着这一切的进行,新博通(Broadcom)对其“ Vulcan” Arm服务器芯片系列失去了兴趣。因此,Cavium捡起了Vulcan芯片,将其重命名为ThunderX2,吸引了一些优秀的芯片设计人员,并成功地将其推入了超大规模产品和HPC市场。
32核的Vulcan ThunderX2比Cavium开发的原始54核ThunderX2好很多,我们也再没有听说过原始的ThunderX2。我们认为,主要的原因是原始的ThunderX2仅具有六个内存控制器,因此具有与Intel Xeon SP相同的瓶颈。此外,这54个内核在以3 GHz的频率运行时却没有同步多线程(SMT),这与Intel的SMT超线程变体的28内核,56线程芯片所能容纳的线程数量几乎相同。
但Vulcan ThunderX2具有八个内存控制器,其计算和内存带宽更加平衡,因此其32核可以与Xeon SP并驾齐驱,并且能经常在基准测试中击败它们。就像IBM的“ Nimbus” Power9和AMD的“ Rome”Epyc 7002芯片一样。
从那以后,大量的从桥下流过。
例如在收购了Arm服务器先驱Applied Micro之后,Ampere成为竞争者,凯雷投资集团(Carlyle Group)则是其支持者,前英特尔总裁雷尼·詹姆斯(Renee James)作为其首席执行官。Ampere将Applied Micro的“ Skylark” X-Gene 3处理器的变体作为32核eMAG 8180并投入了该领域,他们主要是在追逐超大规模生产者和云构建者,而不是HPC中心。
中国华为技术的芯片子公司海思正在推动其Kunpeng 920处理器的发展,由于地缘政治原因,它实际上只有在中东国家和一些亚洲卫星国家中才有机会。
但是对于Arm服务器芯片来说,最重要的是Amazon Web Services刚刚透露了其第二代Graviton2处理器,这是一款自主研发的Arm芯片,该处理器很大程度上基于Arm Holding的“ Ares” Neoverse N1服务器芯片设计。AWS Graviton2实例将是公司测试Arm代码的最快,最简单的方法。
但是,就在本地和云上运行Arm服务器而言,目前Marvell的ThunderX2处理器处于领先地位。微软在过去的几周内已经开始在内部部署ThunderX2芯片,而AWS则在外部部署了经过大幅度改进的64核Graviton处理器(我们认为Graviton2没有多线程),微软也看好了这一机会——在Azure云上为客户提供Arm服务器实例,而不是像过去一样一直将Arm芯片保留给内部使用。
由于所有这些进展都在进行中,所以Marvell在今年一直保持沉默,但他们最近与The Next Platform坐下来,并向我们提供了最新动态以及ThunderX芯片行情的最新动态。公司希望看到能够持续有节奏地改进其服务器芯片,制定路线图并讨论未来,这可能是提供竞争性芯片的讨论中最关键的部分。当然,这是最困难的部分。
首先要考虑的是,Marvell不是像Cavium和Applied Micro一样的“小玩意儿”。该公司成立于1995年,拥有6 000多名员工,在截至今年1月的2019财年,公司收入为29亿美元。该公司生产用于嵌入式和数据中心产品的各种芯片,包括CPU和NPU以及许多其他种类的外围控制器等。Marvell也拥有10 000多项专利,这在现代IT时代非常重要,在现代IT时代,公司有时会与律师抗争。您可以看到,Marvell的产品组合非常广泛:
他们的额一些资产来自QLogic,XPliant,Broadcom和Cavium收购,其中一些来自其他收购或内部开发。我们可以看到,Marvell一直致力于扩大其在数据中心的影响力,他们上周进一步证明了这一点。公司宣布将以17.6亿美元的价格将其WiFi和蓝牙芯片业务出售给了NXP Semiconductors。这让Marvell可以积累更多的实力,可以与数据中心的竞争对手一较高下。
此外,Marvell于今年5月以6.5亿美元的价格从GlobalFoundries手中收购了IBM Microelectronics部门,这是一个专门为客户提供定制ASIC设计服务的部门。这笔交易带来了800多名工程师以及大量工具和技术,这将为Marvel带来每年约3亿美元的收入。Marvell还聘请了高通公司在Centriq系列Arm服务器芯片上工作的工程师,并正在北卡罗来纳州罗利市设立芯片设计中心。
现在,Marvell提供了三种不同的营销途径:
而且,它现在与使用IBM / GloFo单元设计定制芯片的超大规模生产商和电信运营商站在一起。目前,Marvell有100多个合作伙伴,它们直接与公司合作处理ThunderX2处理器。Cadence和Mentor Graphics是两家大公司,分别拥有其EDA和CAE工具。而英特尔在2000年代则在Xeon芯片和Linux操作系统上进行了巨额投资以巩固其数据中心的地位。
Marvell为各行各业设计和交付CPU和NPU芯片已经超过15年了,他们并共同处理了数十亿个芯片。这不仅包括从Cavium交易中获得的ThnderX1和ThunderX2系列,还包括Marvell自己设计的Armada系列芯片以及基于MIPS64内核设计的Octeon TX和Octeon Fusion网络处理器。(ThunderX1实际上是一个Octeon III NPU,它在全球范围内用Arm内核取代了MIPS内核,然后又对其进行了调整。)
关键的是,这不再是“小公司”Cavium操盘。Marvell服务器处理器业务部门总经理Gopal Hegde表示,ThunderX2在服务器市场上占有微不足道的地位,在超大规模生产者和HPC中心中有20个落地,出货量达数万个。但Hegde并没有过多评价,他只是指出,Marvell现在正在与所有构建服务器和其他数据中心设备的ODM合作,但是到目前为止,只有富士康,技嘉和和硕是提供公共参考。对于OEM而言,惠普(Enterprise)(包括Cray完成的工作)和Atos(准确地说是Bull服务器部门)是大型企业,它们的目标都是在HPC中心部署ThunderX2——这里有时使用GPU加速,但通常仅是在CPU群集上部署。
ThunderX1和ThunderX2之间的区别不仅在于核心数量,内存控制器和进程微缩。最大的变化是软件生态系统。
Hegde回忆说:“如果再追溯几年,生态系统压根就不存在了。” “编译器、工具,这些所有的东西都必须人工整理。但是到了今年,在ISC19超级计算会议上,Nvidia可以在ThunderX2系统上添加GPU并对整个过程进行基准测试,他们从未真正与我们交谈过,而是自己完成了整个过程。但是从那时到SC19超级计算机会议之间,我们与Nvidia和Arm进行了大量合作,并且看到了许多基准测试发布。这说明Linux生态系统,特别是与编译器,库和工具链有关的系统已经相当成熟。HPC中心花了很短的时间才提出他们的应用程序,而实际上没有一个人要求我们提供支持或帮助。
微软也在Azure上使用Arm服务器芯片(特别是ThunderX2)并提出了一个有趣的案例,早在2017年3月,微软就宣布了其“ Project Olympus”服务器设计,并表示将Windows Server移植到Arm芯片上,但仅适用于内部工作负载或作为Azure上的服务而不是原始基础结构公开的工作负载。
“很多人问我为什么Windows Server在Arm上运行要花两年半的时间,为什么在Azure上的Windows Server on Arm上发生的事情一直没有引起人们的关注,” Hegde说。我们已经反复要求微软谈论它在做什么——他们几年前表示,希望将Azure上运行的50%的计算能力放在Arm机器上,这是非常大胆的想法,但实际上徒劳无功。然而几周前,当我们谈到Microsoft最终如何在Azure上部署ThunderX2时,我们与Microsoft取得了联系,但他们不再发表评论,也没有谈及将其应用到哪些负载上。
Hedge表示:“ 我们在Windows Server做了大量的工作,因为Windows与Linux相比是一种不同类型的操作系统。” “我们与微软紧密合作,使Windows在Arm服务器上运行。不仅如此,我们还对所有编译器和库乃至整个工具链进行了测试和验证,以便可以将它们部署到生产中。因为数据中心客户在平台方面非常挑剔,Azure的资格认证过程也不例外。为了做到这些,Marvell,Ingrasys,Microsoft的ThunderX2硬件制造商一起做了大量的工作。”
此外,我们必须使其可以基于Arm的服务器节点运行Azure的服务器固件,Hyper-V服务器虚拟化管理程序以及Autopilot监视和管理工具。微软还拥有自己的一组网卡,闪存和磁盘驱动器,FPGA和GPU加速器以及其他外围设备,所有这些外围设备都必须在基于Arm的Olympus机器上完全完美运行。
当然,如果Microsoft更早启动,更快完成,那会更好。但是,正如一个聪明人曾经说过的:做任何事情的最佳时间是十年前。第二个最好的时间现在了。
在进入ThunderX路线图之前,让我们先讨论一下Arm服务器正在兴起的相邻市场——那就是Arm客户端软件开发,我们需要对其进行测试才能在可以模拟的Linux平台的各种SKU上运行。在云中部署服务器。从通用服务器标准来看,这并不是一笔大数目,但这也是非常重要的。
无论你相信与否,有超过一千万个小型Arm设备(其中很多是Raspberry Pi嵌入式服务器,某些实际上市智能手机和平板电脑)被用于Arm设备的开发,测试和验证客户端软件,他们通常运行Linux的某些变体。这将给能提供模拟这些设备、获得更好的成本优势的大型服务器带来机会。Hedge表示,在基准测试中,单个两路ThunderX2服务器可以代替190个Raspberry Pi节点来进行此智能手机和平板电脑仿真,并且可以将总成本降低50%或更多。
另一个机会是在ThunderX2或其他Arm服务器上运行Android云游戏,此外,还有企业虚拟电话市场。就是将其视为虚拟桌面基础结构(VDI),但具有电话个性而不是Windows PC个性。这种形态也正在出现。所有这些都可以托管在数据中心的Arm服务器上,并且可能应该赋予Android客户端和Arm服务器之间的软件兼容性。
总体而言,该市场在未来四年中将增长6倍。
上面的图表只是在计算这三个新兴领域所代表的服务器芯片机会,而不是整个服务器机会。乘以大约3倍至4倍的倍数即可获得完整的服务器机会。那就意味着到2023年,市场上运行的12亿美元的Arm服务器,这意味着5%的收入份额。这无需更换任何一台X86服务器,因为它实际上正在占领一个全新的市场。
现在,让我们进入ThunderX的路线图。
早在6月,Arm Holdings和Marvell签订了一项为期三年的协议,虽然未披露任何细节,但我们怀疑Marvell会更接近使用Neoverse“ Ares” ”,“宙斯”和“波塞冬”的设计并遵循摩尔定律曲线。
正如Arm自己承诺的那样,它将在系统级别上以每年的速度显著(至少30%,有时更多)提高性能。Hedge表示,洛斯阿拉莫斯国家实验室于2018年11月部署了配备有ThunderX2处理器的Cray XC50系统,并使用了Cray的“ Aries”互连,它也开始筹集资金,用于开发“ Triton” ThunderX3处理器及以后的产品。
Hedge说:“我们正在制定非常激进的路线图。” “ ThunderX3将于2020年初问世,我们新一代产品的性提升将超过2倍。这会让你想起AMD Epyc X86服务器芯片上从那不勒斯到罗马的能力提升 ,这是由内核数量增加和IPC更好等因素带来。我们这里有一个非常相似的模型。我们的IPC也正在大幅度提高,我们的核心数量也在增加。因此,ThunderX2和ThunderX3之间的差异比2X高得多。”
Marvell的各个团队都有并行的工作,例如新一代的ThunderX4的是Raleigh团队来推动设计。Hedge并没有随意透露有关ThunderX3或ThunderX4的详细信息的方式,但是随着每次跳跃,功率效率都会提高,核心数量和IPC也会提高。
顺便说一下,就我们所见,Marvell路线图并不是对Arm控股公司Neoverse路线图的效仿。一方面,Arm Holdings是年度节奏,而Marvell是两年节奏。但是,Marvell可能会从Neoverse中抽出东西来进行扩展和调整,然后每两年发布一次结果。实际上,这就是我们认可的做法。
Marvell可能成为Neoverse产品线的代言人,并更多地利用Arm控股公司在过去几年中获取的知识产权。因为重新发明这些轮子没有多大意义。因此,我们认为Marvell可以采用Neoverse设计,并在全球范围内将通用的Arm内核替换为基于Arm指令集设计的内核。
我们可以肯定地告诉您的一件事是,ThunderX3将是单片设计,Hedge向The Next Platform证实了这一点。Marvell不想使用专为笔记本电脑和台式机设计的内核和芯片,然后将它们组合在一个小芯片风格的单个插槽中,以制造服务器处理器。
IPC的提升与时钟速度的提升相结合,这将让ThunderX3带来50%左右的提升。其中L1指令高速缓存和L2高速缓存也将得到扩展,Marvell将调整算术单元,分支预测器和芯片前端的其他部分。同时缓存层次结构,预取器也也将进行调整,而频率则将上升而不是下降。
如我们预期的那样,如果ThunderX3具有64个内核,那么每个插槽将带来3倍的性能提升,IPC则提升20%,时钟也提升30%(从2.2 GHz提升至2.9 GHz)。如果将芯片的频率降低到2.2 GHz,则散热可能会降低很多,也许会降到ThunderX2的150瓦,而不是我们期望ThunderX3的200瓦。
Marvell可以利用很多杠杆,其中只有一些来自芯片合作伙伴TSMC。
Hedge说:“英特尔拥有许多可以支持应用程序的传统电路,这些电路可以追溯到几十年前。但是Arm具有清晰的架构。”
“我们有一个专为服务器应用程序设计的自定义Arm内核,当我们查看每瓦性能和每面积性能时,我们显然会看到很大的优势。我们拥有比那不勒斯好20%的芯片面积优势,并且具有类似的功耗优势。当我们把ThunderX3迁移到7纳米时,我们发现我们的面积和功耗优势实际上得到了改善。与AMD Rome和Intel Ice Lake相比,我们的面积更好,并且我们的电源效率将大大提高。”Hedge补充说。
*免责声明:本文由作者原创。文章内容系作者个人观点,半导体行业观察转载仅为了传达一种不同的观点,不代表半导体行业观察对该观点赞同或支持,如果有任何异议,欢迎联系半导体行业观察。
今天是《半导体行业观察》为您分享的第2156期内容,欢迎关注。