nvidia geforce rtx 4090 ti 显卡(最无争议的老大哥)
nvidia geforce rtx 4090 ti 显卡(最无争议的老大哥)不过有得有失,在大幅提升L2缓存之外,这一次英伟达去掉了NVLINK传输通道,从而让多卡并行成为了历史。从SLI一直到NVLINK,最终在RTX 40上,多卡并行落下了帷幕,当然这也和飞速提升的单卡性能有着密切的关系。除此之外,为了让数据处理更加地具有效率,同时提升重载情况下的数据命中率,这一次英伟达大幅提升了L2缓存,在GA102中的L2缓存为6MiB,而到了AD102则飞跃至96MiB,提升在光追条件下的性能表现。这种加大缓存的行为已经在CPU上得以实现,例如AMD推出的拥有超大缓存的Ryzen 7 5800X3D处理器实现游戏性能的提升。急剧膨胀的规格从GPU的架构图来看,AD102与GA102之间并没有太大的区别,一个计算单元内包括FP32计算单元,FP32与INT32共享的计算单元以及第四代Tensor Core,同时也包括第三代的RT计算单元,让深度学习以及光追更加高效。得益于
这两年对于游戏玩家来说显然是不太正常的,自从上一代英伟达推出RTX 30系显卡之后,各大玩家都饱受矿潮之苦,从2020年一直到2022年那些看起来性能十足且极具性价比的30系显卡与大家彻底无缘,有的只是那些价格高的离谱的矿卡,让众多玩家望尘莫及。而到了2022年,经过矿潮摧残的玩家们亟需性能强劲的新一代显卡来提升士气,这时作为显卡领域执牛耳的英伟达就适时地带来了RTX 40系显卡,借助全新的架构与制程为消费者带来极其强劲的性能。
只是在公布RTX 40系显卡的规格之后,RTX 40系显卡的建议零售价着实让玩家们议论纷纷,不过这种争议似乎与RTX 4090显卡无关,即使从英伟达官方公布的性能来看,RTX 4090显卡的性能也无疑可以坐稳卡皇的宝座。现在就让我们一起来感受一下老大哥显卡带来的强大实力。
Ada Lovelace架构解析
在《英伟达RTX 40系显卡解析:出色工艺带来出色性能,DLSS 3是杀手锏》中,我们对英伟达全新的Ada Lovelace架构进行了一定的介绍,在这里我们会继续为大家带来关于Ada Lovelace架构的几个重点特征。
急剧膨胀的规格
从GPU的架构图来看,AD102与GA102之间并没有太大的区别,一个计算单元内包括FP32计算单元,FP32与INT32共享的计算单元以及第四代Tensor Core,同时也包括第三代的RT计算单元,让深度学习以及光追更加高效。
得益于更加出色的工艺,AD102最高拥有12个图形处理集群,使得计算单元从84个飞跃至144个(GA102拥有7个图形处理集群),CUDA的数量也达到了18432颗,并且光追单元从84个提升至144个,深度学习单元从336个提升至576个,频率也从1.9GHz提升至2.5GHz,而这一切共同组成了拥有763亿颗晶体管的GA102。
除此之外,为了让数据处理更加地具有效率,同时提升重载情况下的数据命中率,这一次英伟达大幅提升了L2缓存,在GA102中的L2缓存为6MiB,而到了AD102则飞跃至96MiB,提升在光追条件下的性能表现。这种加大缓存的行为已经在CPU上得以实现,例如AMD推出的拥有超大缓存的Ryzen 7 5800X3D处理器实现游戏性能的提升。
不过有得有失,在大幅提升L2缓存之外,这一次英伟达去掉了NVLINK传输通道,从而让多卡并行成为了历史。从SLI一直到NVLINK,最终在RTX 40上,多卡并行落下了帷幕,当然这也和飞速提升的单卡性能有着密切的关系。
高度定制的TSMC 4N工艺
AD102拥有的高达763亿颗晶体管实在是让人感到咋舌,假如没有优秀的工艺,那么拥有如此庞大晶体管的芯片在全速运行时势必会引发巨大的热量,而英伟达RTX 30系所采用的三星8N制程工艺的前车之鉴相信大家都聊熟于心。
这一次英伟达采用了TSMC 4N NVIDIA定制工艺,也正因为采用了这项工艺,才让763亿颗晶体管塞进与上代相差不大的芯片中成为了可能,并且GPU的频率也大幅提升,2.5GHz只是正常水平,而在实际运行时候可以达到2.76GHz,英伟达也表示RTX 4090的每瓦性能可以达到RTX 3090的两倍。
第二代硬件光流加速器
过去得益于光线追踪技术,让游戏画面愈发显得真实,然而带来的副作用就是游戏性能的急剧下降。在早期光线追踪中,游戏帧率会下降33-50%,而当时游戏厂商对于光线追踪的应用还处于早期阶段,例如《战地5》中,每像素的光追操作达到了39个,而到了《赛博朋克2077》的最新更新中,光追操作更是达到了655个。业界也迫切需要全新的技术来提升在游戏帧率,确保画面不太损失的前提下获得足够的帧率。
此时英伟达推出了DLSS功能也就是深度学习超级采样技术,这项技术简单来说借助英伟达的超级计算机不断训练AI模型,而让本地的显卡在实际游戏渲染的时候进行较低分辨率的渲染,而借助AI再还原成较高的分辨率输出显示,这样做的好处就是可以有效地提升游戏的帧率,即使是高分辨率下也能获得可观的帧率。
到了新一代的游戏,光线追踪技术的再一次进步让显卡迎来的新的挑战,这时候就需要新一代的DLSS技术,DLSS 3便在这种情况下应运而生。首先英伟达在RTX 40系显卡中加入了改进的光流加速器,借助这项计算单元可以实现对于游戏帧画面的实时推演,提取其中的图像光流信息,同时参考游戏引擎中的运动矢量信息借助AI生成新的中间帧,此外借助插帧以及超分辨率,让RTX 40系显卡只要传统1/8的渲染量即可实现几乎相同的画面输出,从而让GPU的传统图像渲染引擎得到极大的性能释放,游戏帧率得到巨大的提升。
当然插帧带来的弊端就是加大了渲染队列,提高了游戏的输出延迟,对此英伟达采用了NVIDIA Reflex来降低游戏的延迟。可以说得益于大幅提升的晶体管数量,让Ada架构可以实现更多的功能,也让游戏厂商得以拥有更多资源去开发自家的游戏,使4K@144Hz这样的显示器拥有更多的用武之地。
规格参数
今年NVIDIA推出了三款不同的显卡,包括GeForce RTX 4090、GeForce RTX 4080 16GB以及GeForce RTX 4080 12GB三个型号,其中GeForce RTX 4090最受消费者的关注,而这一次也是这款卡皇率先与大家见面。
NVIDIA GeForce RTX 4090显卡基于AD102核心,拥有16384颗流处理器,512个纹理单元以及176个光栅单元,像素填充率达到了每秒4435亿,而纹理填充率则是12.9万亿。此外搭载24GB的GDDR6X显存,显存位宽384Bit,带宽也达到了1.008TB/s。其他参数方面,NVIDIA GeForce RTX 4090显卡的核心频率为2235MHz,Boost频率为2520MHz,显存频率1313MHz,等效21Gbps的速度。Tensor Core也增加了FP8计算单元,增加了显卡的推理性能。
可以看到的是NVIDIA GeForce RTX 4090显卡在流处理器以及单精度性能上相比较上一代有着巨大的提升,从而在游戏性能上更加出色。当然拥有16384颗流处理器的RTX 4090显卡距离完整版AD102的18432颗还有比较大的距离,看起来未来还会有Super、Ti等型号出来,进一步压榨AD102这颗核心。
外观
我们接着来看一下NVIDIA GeForce RTX 4090公版显卡。值得一提的是,本次NVIDIA将限量推出GeForce RTX 4090 FE版,于北京时间10月12日晚9点在京东首发上市,旨在为钟爱FE版设计的发烧级玩家带来无与伦比的体验。届时玩家可以选购来自NVIDIA FE版和来自顶级显卡供应商的RTX 4090 GPU标频版和超频版。
NVIDIA GeForce RTX 4090公版显卡给人的最大感受就是一个字大,给人以压迫众生的感觉。整卡的长度达到了304×137×61mm,官方表示搭配这款显卡的电源功率应该为850W,不过基于锐龙9 5900X处理器。要是搭载英特尔12代酷睿处理器或者是锐龙7000系列处理器,那么实际的电源需求应该更大,准备1000W电源较为保险。
NVIDIA GeForce RTX 4090公版显卡除了庞大的身躯之外,在外观设计上与上代相差不大,继承了金属风,整体展现出的是一种精致感。当然为了提供更好的散热,NVIDIA GeForce RTX 4090公版显卡的风扇尺寸也有所增加,官方表示最高可以提供大约20%的风量,从而提供更高的散热。
而在NVIDIA GeForce RTX 4090公版显卡的背部,官方仍然准备了螺丝孔,这种设计主要为工作室或者从事高性能计算的消费者使用,当然或许是上代裸露的螺丝孔不太雅观,这一次官方准备了磁吸式贴片,从而增加了显卡的整体感。
在辅助供电上,NVIDIA GeForce RTX 4090公版显卡采用了12 4Pin的供电设计,其中12Pin负责供电,默认条件下可以提供450W的电源输出,而4Pin则负责信号传输,如果说监测到需要更高的电源功率,那么12 4Pin的组合最高可以获得600W的供电,加上PCIe的供电,足够一款显卡稳定地运行。官方也配备了4X8Pin的转接线,当然现在ATX 3.0的电源越来越多,如果使用原生的PCIe 5.0电源线,可以让机箱内部的电源线显得更加整洁。
在接口上,NVIDIA GeForce RTX 4090公版显卡采用四个接口,包括三个DP1.4a接口以及一个HDMI 2.1接口,这一次官方并没有采用DP 2.0接口,实属有点意外。NVIDIA GeForce RTX 4090公版显卡还是极具精致感,不过庞大的体积对于机箱提出了更高的要求,特别是ITX机箱,不一定能够请进这位大神安稳入座。
硬件配置
NVIDIA GeForce RTX 4090公版显卡显然是一款极其强悍的显卡,因此我们在硬件配置上也不敢怠慢,为此我们选择了Intel Core i9-12900K处理器,这也是目前游戏性能最为出色的CPU之一,此外主板采用了ROG的Z690 Hero主板,内存则是英睿达的DDR5内存,总容量达到了64GB,除此之外,我们也选用了WD_BLACK SN850以及WD_BLACK SN770两款PCIe 4.0 SSD,从而最大程度地减少系统的瓶颈。
此外我们也搭载Window 11 22H2系统,在驱动选择上,我们采用的是NVIDIA的GeForce 521.90测试驱动,未来关于GeForce RTX 4090显卡的性能表现将会随着驱动的变动而有所调整。我们也拿出了GeForce RTX 3080 Ti显卡作为本次的对比显卡。
理论性能
作为图形理论测试的首选,3DMark自然是最为流行的测试软件,通过FireStrike、TimeSpy以及Royal Port分别测试显卡在DX11、DX12以及光追性能,自然我们也使用3DMark测试了NVIDIA GeForce RTX 4090的理论成绩。
在3DMark的测试中,拥有更强规格的GeForce RTX 4090显卡在3DMark的理论测试中拥有远超RTX 3080 Ti的成绩,平均领先幅度达到了84%,其中FireStrike Extreme的领先幅度仅有51%,TimeSpy为78%,而其他三项成绩几乎都是翻倍。很明显是因为CPU限制了GeForce RTX 4090显卡在2K分辨率下取得更高的分数。
除了3DMark之外,我们也测试了在V-Ray这款渲染软件下的性能表现对比,相比较3DMark,V-Ray更能压榨显卡的性能,毕竟是一款生产力工具,而GeForce RTX 4090在性能上相比较RTX 3080Ti显卡翻倍。
游戏性能测试
看完了3DMark的理论测试,相信大家对于GeForce RTX 4090的实际游戏测试也十分地感兴趣,当然理论测试只能说明显卡的理论图形性能,在实际游戏下,由于优化的区别,实际的游戏性能差距会更大或者更小。如今光追游戏是越来越多,因此我们这一次直接将游戏分为传统光栅化游戏以及光追游戏进行对比测试,此外考虑到GeForce RTX 4090的定位,我们均开启全特效,同时关闭DLSS,看看在重压条件下显卡的性能表现。
光栅化游戏
在传统的光栅化游戏中,GeForce RTX 4090相比较RTX 3080 Ti性能提升幅度大约在57%,其中《巫师3》游戏提升幅度最高,提升幅度为90%,还是相当给力的。毕竟目前大部分发烧级游戏玩家采用的是4K分辨率的显示器,而且已经有相当多的4K@144Hz的电竞显示器问世,借助GeForce RTX 4090强大的性能,即使是不开启DLSS这样的黑科技也可以达到144帧的速率。
而在2K分辨率下,GeForce RTX 4090的平均领先幅度在50%,实际上对于GeForce RTX 4090这样的显卡来说,2K分辨率已经完全不够用,甚至部分游戏像《APEX》撞上了帧数墙,并且GPU功耗也有所浮动,甚至GPU占用率也并非达到99%,可见此时CPU已经出现了瓶颈,这在以往的测试中十分地少见。应该来说GPU再一次走到了CPU的前面。
光追游戏
相比较传统的光栅化游戏,由于搭载了新一代的光追计算单元,因此GeForce RTX 4090在光追游戏中的表现远超光栅化游戏,相比较GeForce RTX 3080 Ti来说提升幅度也更大,平均提升幅度达到了88%,其中像《杀手3》、《边境》、《赛博朋克2077》等重压游戏更是可以拥有超过100%的性能提升。不过我们也可以看到像《光明记忆》、《赛博朋克2077》在开启全光追特效之后,即使是GeForce RTX 4090也感到十分地吃力,帧率表现也勉强可玩,这时候就要DLSS出马了。
而在2K分辨率的测试中,GeForce RTX 4090同样出现了CPU瓶颈,特别是《德军总部:新血脉》以及《Far Cry 6》这两款游戏,在2K分辨率下的表现与4K相差不大,只能说或许是Vulkan API的渲染机制问题以及育碧的祖传优化,导致GeForce RTX 4090完全没有发挥实力。当然扣除这两个异常的游戏成绩,GeForce RTX 4090相比较RTX 3080 Ti提升幅度在75%左右。
通过上述的游戏对比,GeForce RTX 4090在光追以及4K分辨率下能够取得更加出色的成绩表现,越高压表现越出色,而在2K分辨率下,实际提升幅度就没有4K这么大,这是由于除了GPU之外,包括CPU、内存频率以及带宽已经成为了制约显卡发挥全力的几个原因。
DLSS 3
在RTX 40系显卡中,除了传统的游戏性能表现之外,最大的特色就是独占的DLSS 3技术,这项技术借助RTX 40系显卡内置的光流处理器实现游戏帧画面的模拟和插帧,从而大幅提升游戏的帧率,并且在4K分辨率下,实际游戏画面也没有什么损失,基本上难以分辨,可以说是为今后8K分辨率所准备的一项技术,那么英伟达DLSS 3的性能究竟如何?它和DLSS 2相比,性能究竟提升有多少?
由于目前DLSS 3的游戏和应用要在40系显卡上市之后才陆续正式发布,因此我们基于几款游戏以及软件的测试版进行测试,实际体验与正式版或许有一定的出入。
我们以目前支持DLSS 3的《逆水寒》以及《赛博朋克2077》为例,看看DLSS 3是怎么进行设置的,可以看到在新版的DLSS设置中,包括了NVIDIA DLSS、DLSS Frame Generation、DLSS Super Generation和DLSS锐化的设置,此外《逆水寒》不仅提供全测试场景的路径追踪实现全景光线追踪,还提供了NVIDIA Reflex的设置。其中DLSS Super Resolution就是目前的DLSS 2,包括自动、性能、质量、超级性能等选项,而DLSS Frame Generation则是DLSS 3的开关。也就是说即使你购买了GeForce RTX 4090这样的RTX 40系显卡,那么也可以开启DLSS 2以获得更低的渲染延迟。
考虑到DLSS 3通过插帧实现帧率上升,因此无疑会增加渲染延迟,因此绝大部分的游戏测试中,DLSS 3均与NVIDIA Reflex绑定,只要开启DLSS 3,那么NVIDIA Reflex默认便是打开的状态。
首先是DLSS 3的画质,从原理上,DLSS 3基于光流计算获取帧信息,利用AI来绘制出相应的图片进行插帧,因此其画质与DLSS 2相差不大。此外经过游戏厂商这几年的开发,在4K与最高画质下,DLSS 2已经可以让画质损失达到可以接受的程度,通过上述的对比图便可以看到,三者之间的差距几乎可以忽略不计,当然三者的游戏帧率相差比较大。
在《逆水寒》的一段可以媲美CG电影的全景光追Demo中,我们可以比较明显地发现DLSS 3与原生4K分辨率之间的区别。由于DLSS会对画面进行锐化处理,因此地板的纹理是DLSS 3更加清晰,而在亭子后面的栏杆处,DLSS 3已经出现了栏杆画面碎裂的情况,远景也比原生4K更加模糊。当然像《逆水寒》这样的Demo,更像是对于游戏特效的一次炫技。
那么DLSS 3对于性能提升究竟达到怎样的程度,首先是基于GeForce RTX 4090下开启DLSS 3与否的性能对比。可以看到在重压条件下,即使是像GeForce RTX 4090这样的卡皇,在运行《逆水寒》这样的游戏也是压力巨大,仅有17帧,这里的逆水寒为全景光追Demo,实时渲染对于GPU的压力达到了让人咂舌的地步,不过画质也可以媲美CG级电影,而开启DLSS 3之后,几款游戏的帧率有着巨大的提升,平均幅度在300%左右,而《逆水寒》更是可以达到4.94倍,可以说DLSS 3带来的帧率提升极其明显。
当然我们也测试了GeForce RTX 4090开启DLSS 3与GeForce RTX 3080 Ti开启DLSS 2下的帧率表现,以及GeForce RTX 4090在开启DLSS 3与DLSS 2之间的帧率差别。在双方开启性能DLSS的前提下,GeForce RTX 4090的平均帧率是GeForce RTX 3080 Ti的2.62倍,而GeForce RTX 4090开启DLSS 3相比较DLSS 2,平均帧率也提升了42.7%,提升幅度还是相当给力。
从原理上说,DLSS 3借助AI模拟与插帧实现游戏帧率的提升,那么不可避免地会增加图像渲染队列,进而增加时延,那么DLSS 3除了会大幅提升游戏帧率之外,对于游戏的时延影响究竟有多深?对此我们使用《Lyra》进行测试,通过FrameView查看游戏的实时时延。
通过对比可以发现,在关闭DLSS下,由于游戏帧率的限制,图像渲染延迟已经达到了63.87ms,而在开启DLSS 2下,图像渲染延迟大幅下降,达到了30.46ms。而在开启DLSS 3的前提下,图像渲染延迟快速提升至51.76ms,当开启Reflex PlusBoost下,游戏渲染延迟与DLSS 2相差不大,为32.44ms,当然最低的还是DLSS 2开启Reflex,延迟仅为17ms上下。因此借助NVIDIA Reflex,即使开启DLSS 3,游戏的延迟也可以与DLSS 2相提并论。当然如果说你是一名电竞玩家,希望获得最低的延迟,那么开启DLSS 2和NVIDIA Reflex是最佳的选择,毕竟GeForce RTX 4090应付电竞游戏没有丝毫压力。
目前 DLSS 3已经得到了许多全球领先游戏开发者的支持, 其中《超级人类》、《生死轮回》、《逆水寒》“拂云庭“、《微软模拟飞行》以及《瘟疫传说:安魂曲》将会在第一时间增加对于DLSS 3的支持,总计超过35款游戏和应用宣布即将支持该技术,包括《赛博朋克2077》、《光明记忆: 无限》、《黑神话: 悟空》、《漫威蜘蛛侠: 重制版》等3A大作。
功耗和温度
在实际测试中,我们经常会遇到一种情况,那就是游戏玩着玩着性能大幅下降,这是由于显卡散热不尽如人意所导致的GPU降频,因此一款显卡散热的好坏同样会影响到实际的显卡性能发挥。而这一代为了应对AD102全速运行时候的巨大热量,英伟达对GeForce RTX 4090显卡的散热器进行了优化和改良,包括增加了进风量,从而使散热性能得到巨大的提升,当然体积也变得更加硕大,那么这一代的公版显卡在散热表现上是否有比较大的提升,显卡功耗究竟如何?我们使用3DMark TimeSpy Extreme压力测试,同时使用FrameView以及GPU-Z等软件记录GPU的温度。
得益于全面改良的散热器,GeForce RTX 4090公版显卡这一次的散热表现十分地出色,GPU的最高温度仅在68度左右,远胜于上一代公版的83摄氏度,之前有一种猜测是全新的散热器可以承受600W左右的TGP,自然对450W的GeForce RTX 4090来说是小菜一碟。而在功耗方面,尽管GeForce RTX 4090的TGP为450W,但是实际测试其功耗基本上在400-410W之间浮动,仅有最高功耗能够触及415W上下,距离官方的450W的TGP还有很大的一段距离,这其中一个重要的原因在于此时的系统已经出现了瓶颈,因此无法压榨显卡的所有性能。
超频
在实际测试中,我们发现尽管Boost频率为2520MHz,但是显卡的实际频率却可以轻而易举地超过2700MHz,全速运行下的频率也达到了2760MHz。可见这一代台积电4nm工艺的强大,当然我们也希望借助超频工具,看看在超频条件下,这块GeForce RTX 4090显卡能够达到怎样的频率。
经过简单的超频,GeForce RTX 4090显卡的频率可以达到3060MHz,此时TimeSpy Extreme的跑分可以达到20386分,比默频成绩提升了5%,显卡的功耗也达到了420-430W。台积电4nm工艺也让这颗GPU有着比较出色的超频性能。
总结:当之无愧的显卡老大哥
作为矿潮之后诞生的新一代显卡,RTX 40系注定是充满争议的,尤其是显卡的定价更是如此。尤其是矿难导致显卡价格雪崩,让消费者在选购新显卡的时候势必要反复挑选,最终选择适合自己的显卡。当然这种纠结的选择对于GeForce RTX 4090显卡这样的卡皇来说并不存在,因为它的性能实在是过于强大,基于AD102核心的GeForce RTX 4090显卡凭借着暴力的流处理器堆叠,无论是光栅游戏还是光追游戏,相比较上一代均有极其明显的性能提升,平均幅度也达到了65-80%。
更不用说DLSS 3这样的黑科技,让GeForce RTX 4090显卡的游戏表现达到了新的高度,即使面对全景光追的游戏也丝毫不怵,再加上AV1编解码等技术的加持,GeForce RTX 4090显卡也极具生产力,可以说是一款不折不扣的卡皇。
此外这一代公版显卡在散热上也进行了大幅的优化,愈发出色的散热器让公版显卡也可以获得与非公版显卡相差不大的散热表现,解决了发烧级玩家的一个痛点,再加上12999元的售价以及NVIDIA信仰的加成,今年的公版显卡可谓是性价比十足。更为重要的是,今年NVIDIA将会在国内开卖这块公版显卡,大家在以原价购买这款显卡的同时,还可以享受应有的保修政策。
当然这个世界上也没有完美的产品,GeForce RTX 4090显卡也不例外,其庞大的体积对于ITX玩家来说似乎是一个噩梦,甚至部分MAT机箱也因为长度的原因与这代的旗舰显卡告别。对于这类用户来说,选择中塔乃至全塔式机箱,或者购买相对小巧的水冷显卡,或许是一个更加理智的选择。