耕升3060ti炫光oc开箱评测：棱角当道时代的锐丽异类耕升 GeForce

小君 2022-11-06 04:46:48 312

耕升3060ti炫光oc开箱评测：棱角当道时代的锐丽异类耕升 GeForce功耗与散热而对于笔者来说，这肯定是不满足的，所以继续往上超频，GPU核心频率直接拉到3015MHz，这在以前是想都不敢想的，已经接近部分CPU的频率了，超频后3DMark的PortRoyal光追测试显卡得分27073，相比默认状态下提升了约4%。可以看到这代RTX4090，即使不超频已经有非常不错的性能表现了，超频后的性能提升也比较可观。7超频&功耗&总结超频这一代的RTX4090超频能力相当出色，虽然英伟达已经给RTX4090足够高的频率，出厂最高可达2520MHz，不过依旧有继续超频的空间。所以我们手动对这张显卡进行超频，简单小超一下，将GPU核心频率拉至2910MHz，此时跑3DMark的PortRoyal光追测试，显卡得分26734分，相比默认状态下的26105有了小幅提升。

视频制作方面，我们测试了PCMAK10整机性能、ULProcyon、以及PugetBench的测试，由于Photoshop、Premiere以及AfterEffect这三个软件对于显卡的要求都不算太高，显卡加速只起到辅助作用，所以耕升RTX4090炫光OC在制作视频方面的提升关不太明显，与上一代旗舰RTX3090Ti相比，提升幅度约13%，而RTX4090真正强悍的地方在于支持新的编解码方式，下面我们也会进行详细的测试。

来到生产力方面，我们先来看看专业级别的生产力会是怎么样的表现。Blender与OctanceBench测试中耕升RTX4090炫光OC性能表现同样的给力，相比前代RTX3090Ti有85%以上的性能提升。即使是在SPEX的专业领域测试中，耕升RTX4090炫光OC也没让人失望，比上代旗舰有约55%的性能提升。尤其是此款显卡才卖1W3左右，这价格跟这性能，只能说搞工业设计的用户这次真的可以换显卡了，这代RTX4090真的可以显著提升你们的渲染效率。

这代RTX4090的一大亮点就是支持AV1编码，AV1相比H.265能够以更低带宽、更小文件提供更高质量的画质，并且完全开放没有任何授权费用，正陆续得到更多平台、软件的支持。所以我们再做了一个RTX40系列显卡内置的第8代NVENC双编码器的测试，测试片源来自NVIDIA提供的8K片源与工程文件，耕升RTX4090炫光OC在8K30AV1视频输出到H.265格式视频时明显有着更短的视频，尤其是8K30规格的视频用时更短一些。而且还支持AV1格式的输出，这实在是再好不过了。即便是相同的H.265格式，耕升RTX4090炫光OC的导出速度相比前代旗舰也快了70%左右。

同时MAGICMASK工程文件的测试与ON1Resize的项目测试中也表明，耕升RTX4090炫光OC内置的第8代NVENC双编码器很强大，而且利用RTX40核心里的黑技术，可以让渲染的时候更短，大大的加快效率。

7超频&功耗&总结

超频

这一代的RTX4090超频能力相当出色，虽然英伟达已经给RTX4090足够高的频率，出厂最高可达2520MHz，不过依旧有继续超频的空间。所以我们手动对这张显卡进行超频，简单小超一下，将GPU核心频率拉至2910MHz，此时跑3DMark的PortRoyal光追测试，显卡得分26734分，相比默认状态下的26105有了小幅提升。

而对于笔者来说，这肯定是不满足的，所以继续往上超频，GPU核心频率直接拉到3015MHz，这在以前是想都不敢想的，已经接近部分CPU的频率了，超频后3DMark的PortRoyal光追测试显卡得分27073，相比默认状态下提升了约4%。可以看到这代RTX4090，即使不超频已经有非常不错的性能表现了，超频后的性能提升也比较可观。

功耗与散热

最后对耕升RTX4090炫光OC进行烤机测试，测试时室温24℃，Furmark甜甜圈设定为1280x720分辨率。在烤机15分钟后，显卡占用率达到了99%，满载功耗446.7W，显卡运行频率顶着2910MHz在跑，核心满载温度稳定在64℃，显存满载温度为62℃，果然全新的第二代“炫之黑曜石”散热器的效能强劲，用来压制这款显卡还是绰绰有余的。

相比FE公版，耕升RTX4090炫光OC的温度表现和噪音表现都更好，GPU温度有将近10℃的差距，显存更是接近20℃差距。并且得益于台积电4nm工艺，这一代的RTX4090在同等TDP下，性能更强的同时，温度也大幅下降。

总结

首先是外观方面，这一代的耕升RTX4090炫光OC不仅有着极具未来感的外观设计，颜值上也保留了前代的大面积炫光RGB，至今给我留下深刻印象，可以说是“棱角分明当道时代的锐丽异类”，即使是对RGB不感冒的玩家在看到耕升RTX4090炫光OC时，也会被它炫酷的RGB灯效所吸引。

评测完可以看到这代RTX4090后，它的性能也给我带来不小的惊喜，耕升RTX4090炫光OC相比前代旗舰提升巨大，性能确实称得上地表最强，至少现阶段，还没有对手能够撼动它消费级卡皇的宝座。散热效能也是前所未见，如此强悍的性能，温度控制却相当到位，不过60多度而已，从里到外都彰显了高端旗舰的风范。

如果你想购买一款性能最强、颜值在线、温控到位的显卡，那么耕升RTX4090炫光OC一定是你的最佳选择。DLSS3黑科技加持带你体验4K光追游戏的魅力，全新升级的RTCores和TensorCores邀你一同领略AI领域、视频转码等方面的代际飞跃。

最后是价格方面，耕升RTX4090炫光零售报价为12999，与FE公版持平；耕升RTX4090炫光OC零售报价13999。

8ADA架构讲解

Ada Lovelace架构讲解

Turing、Ampere上两代架构核心均以人物来命名，前者是计算机科学之父——艾伦·麦席森·图灵；后者则是“电学中的牛顿”——安德烈·玛丽·安培，电流的国际单位安培就是以其姓氏命名。那AdaLovelace定非凡人，度娘一下果然，这是人称“数字女王”的阿达·洛芙莱斯，编写了历史上首款电脑程序，是被世界公认的第一位计算机程序员，果真是一代比一代还要更牛。PS：她的父亲是《唐璜》的作者，诗人拜伦喔。

从Turing架构开始，NVIDIA首次在显卡中加入了加速光线追踪的RTCore单元，以及面向AI推理的TensorCore单元，这革命性的创新使实时光线追踪成为可能。而Ampere架构则是全面的架构改进，在加入新一代的二代RTCore和三代TensorCore基础上，还有着更先进的SM单元设计，这样显卡工作效率那是翻倍的提升。而来到AdaLovelace架构，同时是以效率提升为大前提，自然是引入了最新的第三代RTCores与第四代TensorCores单元，同时加入众多新颖的黑科技，从执行效率来说AdaLovelace架构是上代Ampere架构的2倍以上，甚至光线追踪能力更是达到了恐怖的4倍性能。

在讲述核心架构前，我们先了解几个关键词：GeForceRTX4090、AdaLovelace、TSMC4N、608mm²、760亿个晶体管、2倍性能功耗比。

大家带着几个关键字来看上面的【显卡规格参数对比】表格，就可以更容易读懂上述表格了。最新一代的桌面显卡GeForceRTX40系列均采用全新的AdaLovelace架构核心，GeForceRTX4090的核心是AD102，目前AdaLovelace架构核心中最为强大的，具有760亿个晶体管、16384个CUDA核心和24GB高速美光GDDR6X显存。

而GeForceRTX408016GB核心代号为AD103-300，拥有9728个CUDA核心和16GB高速美光GDDR6X显存，显存位宽也缩减到了256Bit；GeForceRTX408012GB规格要低一些，核心代号为AD104-400，拥有7680个CUDA核心和12GB美光GDDR6X显存，显存位宽仅为192Bit。这里由于NDA原因这里我们不再多说GeForceRTX4080系列相关的信息。

得益于NVIDIA与台积电深度合作的TSMC4N制程工艺，GeForceRTX4090核心面积仅是608mm²（上代RTX3090Ti628mm²），在更小的核心面积下却能塞下多达760亿个晶体管，比上一代的Ampere架构多出了约70%晶体管数量。

值得注意的是，制程工艺的提升不单能拥有更多的晶体管，其核心频率更是能跑得很高，GeForceRTX4090Boost频率就已经达到了2520MHz，这样在核心频率与高规格的双向保证下实现了比上代显卡高达2倍的性能功耗比。

从GTC2022秋季大会中，其实我们就已经发现了，目前GeForceRTX4090显卡中配备的AD102-300核心其实并非完整的AD102核心。完整的AD102核心应该包括了12个GPC(图形处理集群)、72个TPC(纹理处理集群)、144个SM(流式多处理器)和⼀个带有12个32Bit显存控制器的384Bit显存位宽。

再来看上面的GeForceRTX4090架构图，和完整版本的AD102核心对比起来就很容易看出差别。首先，GeForceRTX4090核心代号为AD102-300，其拥有9个完整规格的GPC(图形处理集群，每个内建6个TPC)，与2个非完整的GPC(图形处理集群，每个内建5个TPC)，共组成了64个TPC，那么SM单元自然就是128个了。至于显存位宽方向那是相当的完整——384Bit。

如果你还是不太懂，这里笔者就逐一为了AdaLovelace架构显卡的构成。

刚才我们已经说到，一个完整的AdaLovelace架构AD102核心内部拥有12个GPC，而每个完整的GPC中包含了一个专用的RasterEngine（光栅化引擎），两组ROPs共16个ROP（光栅化处理单元），以及6个TPC与12个SM单元。

全新的SM流式多处理器

AdaLovelace架构中最大的亮点之一：全新的SM流式多处理器，每个SM包含了128个CUDA核心、1个第三代的RTCores 4个第四代TensorCores（张量核心）、4个TextureUnits（纹理单元）、256KBRegisterFile（寄存器堆），以及128KBL1数据缓存/共享内存子系统，于是这一个全新的SM单元有着超过上一代2倍之的性能表现。

过去的Turing架构INT32计算单元与FP32数量是一致的，而两者相加才组成了64个CUDA核心。但是Ampere架构开始，左侧的计算单元实现了FP32 INT32的计算单元并发执行，也就是说CUDA核心数量翻倍到了128个。

再来看看AdaLovelace架构的SM，FP32/INT32的计算单元组合，同样实现了每个SM内含128个CUDA的设计，看似提升不大，但是当你了解到GeForceRTX4090拥有128个SM，16384个CUDA核心，那你也就应该明白达82.6TFLOPS的着色器能力是如何实现的了，比上一代的RTX3090Ti显卡的40TFLOPS，还真是提升了两倍有多。

另外缓存方面AdaLovelace架构也进行了大规格的提升，首先每个SM单元中单独配上了128KB的缓存，这样RTX4090显卡中就实现了163MBL1/共享内存。其次核心的二级缓存进行进行了重新的设计，并且完整AD102核心是96MB二级缓存，而RTX4090显卡拥有72MB二级缓存，也可能是因此AdaLovelace架构核心对显存位宽的依赖性并不高。

技术讲解：第三代RT Cores与第四代Tensor Cores

以为刚才的CUDA数量与超大L2缓存就已经很猛了，实现上AdaLovelace架构最大的提升还是在第三代RTCores与第四代TensorCores身上。

第三代RTCores

RTCores用于光线追踪加速，第三代RTCores的有效光线追踪计算能力达到191TFLOPS，是上一代产品2.8倍。

在Ampere架构中，第二代RTCores支持边界交叉测试（BoxIntersectiontesting）和三角形交叉测试（TriangleIntersectiontesting），用于加速BVH遍历和执行射线三角交叉测试计算，虽然光线追踪处理能力已经比初代的Turing架构核心更高效，但是随着环境和物体的几何复杂性持续增加，传统的处理方式很难再以更高效率、正确反应出的现实世界中的光线，尤其是光的运动准确性。

所以在第三代RTCores增加了两个重要硬件单元：OpacityMicromapEngine与DisplacedMicro-MeshesEngine引擎。OpacityMicromapEngine，主要是用于alpha通道的加速，可以将alpha测试几何体的光线追踪速度提高2倍。

在传统光栅渲染中，开发人员使用一些Alpha通道的素材来实现更高效的画面渲染，例如Alpha通道的叶子或火焰等复杂形状的物体。但在光线追踪时代，这传统的做法会为光线追踪带为不少无效的计算，例如运动性的光线多次通过一块叶子，光线每击中一次叶子，都会调用一次着色器来确定如何处理相交，这时就会做成严重的执行成本与时间等待成本。

而OpacityMicromapEngine用于直接解析具有非不透明度光线交集的不透明度状态

三角形。根据Alpha通道的不透明，透明与未知等三个不同的块状态进行处理：透明则直接忽略继续找下一个，不透明块则记录并告之命中，而未知的则交给着色器来确定如何处理，这样GPU很大部分都不需要进行着色器的调试处理，能够实现更为高效的性能。

DisplacedMicro-MeshesEngine

如果说OpacityMicromapEngine加速的是面处理，那么DisplacedMicro-MeshesEngine就是几何曲面细节的加速器。如上图所示，在AdaLovelace架构中，通过1个基底三角形位移地图，就可以创建出一个高度详细的几何网格，所需要资源占用比二代RTCores更低，效率也更高。

通过NVIDIA给出的创建14:1珊瑚蟹例子来说事，这里我们需要需要1.7万个微网格、160万个微三角形，在AdaLovelace架构中BVH创建速度可加快7.6倍，存储空间缩小8.1倍。DisplacedMicro-MeshesEngine起到了关键性的作用，其将一个几何物体根据不同细节分成密度不一的微网络处理，红色密度超高，细节处理越为复杂。相应的低密度微网络区域则可以释放更多的资源与存储空间，这样DisplacedMicro-MeshesEngine就可以帮助BVH加速过程，减少构建时间和存储成本。

同时AdaLovelace架构SM中新增了着色器执行重排序（ShaderExecutionReordering，SER），这是由于光线追踪不再只有强光或者阴影渲染处理，未来将会更多的是在光线的运动性，这样光线就会变得越来越复杂，想要第三代RTCores与第四代TensorCores有着更高的执行效率，那就得为他们来安排一位管家。而着色器执行重排序（SER）就是为了能够即时重新安排着色器负载来提高执行效率，为光线追踪提供2倍的加速，也能更好地利用GPU资源。不过目前仍未有实例，想实现这个功能，还得游戏与开发工具的支持才行。

第四代TensorCores

TensorCores是专门为执行张量/矩阵运算而设计的专用执行单元，这些运算是深度学习中使用的核心计算功能。第四代TensorCores新增FP8引擎，具有高达1.32petaflops的张量处理性能，超过上一代的5倍。

9DLSS3技术讲解

技术讲解：DLSS3

或者说第四代TensorCores太硬核你不会知道是啥？提升意义在哪？但是TensorCores最经典的应用DLSS你肯定会知道，这一次AdaLovelace架构支持NVIDIA最新的DLSS3技术。

之前我们也聊过DLSS技术，其设计之初是为了弥补光线追踪技术后的性能损失，具体的表现为开启光线追踪技术后游戏帧数大幅度的下降，甚至很难保证游戏流畅的运行。于是DLSS使用低分辨率内容作为输入并运用AI技术输出高分辨率帧，从而提升光线追踪的性能。

在DLSS3中包含了三项技术：DLSS帧生成、DLSS超分辨率（也称为DLSS2）和NVIDIAReflex。你可以理解为DLSS3是在DLSS2的基础上，新增了DLSS帧生成技术；而后两技术中，DLSS超分辨率只需要GeForceRTX显卡都能使用上，NVIDIAReflex则是GeForce900系列以后的显卡都用使用上。

想实现DLSS帧生成可不简单，这需要配合上AdaLovelace架构的GeForceRTX40系列显卡才行。DLSS帧生成技术原理是：利用AI技术生成更多帧，以此提升性能。DLSS会借助GeForceRTX40系列GPU所搭载的全新光流加速器分析连续帧和运动数据，进而创建其他高质量帧，同时不会影响图像质量和响应速度。

从Ampere架构开始，NVIDIA显卡就已经支持了光流加速器，而AdaLovelace架构的光流加速器升级到了第二代，其提供了高达300TeraOPS(TOPS)，比安培架构的初代光流加速器（OpticalFlowAcceleration，OFA）快2倍以上。为了实现DLSS帧生成，OFA扮演了重要的角色，其配合上新的运行⽮量分析算法在DLSS3技术框架内实现精确和高性能的帧生成能力。

另外，由于DLSS帧生成是在GPU上作为后处理执行的，那么即使在游戏受到CPU性能限制的时候，我们同样能够从中获得更好的游戏性能提升。尤其是那种物理计算密集型的游戏或大型场景游戏，DLSS2均可以让GeForceRTX40系列显卡以高达两倍于CPU可计算的性能来渲染游戏。

最后由于DLSS3是建立在DLSS2基础之上的，游戏开发者可以在已支持DLSS2或NVIDIAStreamline的现有游戏中快速集成该功能，所以DLSS3已在游戏生态得到广泛应用，目前已有超过35款游戏和应用即将支持该技术。

阅读小亮点：NVIDIAReflex

NVIDIAReflex也是DLSS3其中的一环，它可以使GPU和CPU同步，确保最佳响应速度和低系统延迟。

想要实现端对端的最低延迟，你需要确保游戏、显示器以及鼠标三者都同时支持并开启了Reflex技术。

当GeForceRTX40系列显卡和NVIDIAReflex搭配上后，直接达到1440p分辨率360FPS的体验，这着实是性能有点强劲了。

在GTC2022大会时已经透露将会还有4款1440p分辨率的新型G-SYNC电竞显示器将要发布，包括采用mini-LED技术的AOCAG274QGM–AGONPROMiniLED、MSIMEG271QMiniLED和ViewSonicXG272G-2KMiniLED三款显示器刷新率均为300Hz，而最猛的是ASUSROGSwift360HzPG27AQN，刷新率直接来到了360Hz。

但唯一一个问题就在于，部分显示器厂商认为此类产品受众人群较少，会降低此类显示器的产能，甚至产品就已经被内部PASS掉，所以1440p360Hz是很美好，但现实也是相当的骨感。

技术讲解：双NVIDIA编码器（NVENC）

GeForceRTX40系列显卡还有一个全新的升级，那就是双编码器NVENC。第八代的NVENC双编码器不仅支持H.264与H.265，还支持开放式视频编码格式AV1。

而由于AV1是一种免版税的视频编码格式，上游软件厂商与下游戏的配套端都在大力推广此编码格式，我们也会看到越来越多的硬件与软件支持AV1格式，包括剪映专业版、DaVinciResolve、以及AdobePremierePro较为流行的Voukoder插件均支持，且均可通过编码预设使用双编码器，这样我们等待视频导出的时间缩短将近一半。

不单是视频制作软件，AV1格式也将会是主播、游戏直播UP主们的新宠儿，在保证画面最高质量的情况下，AV1编码器可将效率提高40%，同时显卡的占用也更低。包括OBSStudio一一代软件中也会增加AV1格式的支持。另外我们还能通过GeForceExperience和OBSStudio录制高达8K60的内容，这样我们做游戏录制也会变得更为轻松。

包括我们之后测试时使用的游戏内录视频都是支持AV1格式，同时双编码器NVENC在资源占用和适配上做得越来越好。

上一页 9 10 11 尾页

网站首页

返回栏目

耕升3060ti炫光oc开箱评测：棱角当道时代的锐丽异类 耕升 GeForce

猜您喜欢：

相关文章

耕升3060ti炫光oc开箱评测：棱角当道时代的锐丽异类耕升 GeForce