Geekerwan, RTX40系显卡评测序章：ADA 新架构变化有多大？

RTX40系显卡评测序章：ADA 新架构变化有多大？

在 30系发布两年之后 NVIDIA 终于在上个月带来了 4090和 4080 我们也是第一时间开始了 4090的性能测试工作因为具体的性能要等到 11号才能解禁所以我今天就先来聊一下 40系显卡的架构和技术包括新的 Ada 架构到底有哪些变化 DLSS 3到底是怎么回事以及我对 40系显卡产品线的看法让我们先从架构开始 40系的 Ada 架构其实并不是像上代 Ampere 或者上上代 Turing 那样脱胎换骨式的大改而是在整体结构变化不大的前提下进行优化与此同时它还从推出时就不算先进的三星 8 nm 工艺直接跳到了目前最先进的台积电 4 N 英伟达定制工艺这个工艺的进步幅度有多夸张呢简单来说工艺的差别已经堪比从 A 16和 A 11了从实际密度来说 AD 102拥有 763亿晶体管但核心面积居然比只有 283亿晶体管的 GA 102还要小这意味着实际密度大约提升了 2.8倍！老黄啊你终于肯下本钱用先进工艺造 GPU 了这带来了更大的规格更高的频率另外最关键的是这也会带来能耗比的显著上升可以预见的是这一代显卡很有可能在笔记本上有着非常出色的表现我觉得以桌面端这个阉割幅度来看再次出现笔记本和台式机 GPU 用近似规格的情况应该也是有很大可能的所以说我觉得比起主流台式机平台你大可以期待一下 40系的笔记本 GPU 应该会有不小的提升如果仅仅从技术角度不从价格角度来看我其实有点想起了几年前的 10系卡也就是 Pascal 那么接下来我们来具体说说 Ada 架构本身的特性和 30系的 Ampere 架构一样完整的核心由一个个 GPC 组成你可以把它看作是 GPU 内部的 “核心 ” 来到 GPC 内部每个 GPC 内包含着 12个 SM 这些是流处理器组成的小单元 4090使用的 AD 102有 12个 GPC 共 144组 SM 比 GA 102 7个 GPC 共 84组 SM 的规格高了不少但 4090只开启了其中的 128组这个阉割幅度在历代基本上是首发大核心里阉割幅度最大的低一档的 AD 103也就是 4080 16 G 所使用的核心则使用了和 GA 102一样的 84组 SM 7个 GPC 的设计然而 4080 16 G 也不是完整核心只有内含 60组 SM 5个 GPC 的 AD 104的完整核心在首发阵容当中它叫做 4080 12 G 别忘了上一代 GA 104的完整核心叫做 3070 Ti 哦但毕竟 NVIDIA 也有着像 2080、1080 这种 104完整核心叫做 80的传统所以吐槽归吐槽性能盖过上一代旗舰应该还是问题不大的具体架构上一个 SM 内部有 128个 FP 32处理单元这也就是我们平常说的 “ CUDA 核心 ” 而这些 FP 32单元里面又有一半是可以执行 INT 32指令的这一点也是从 Ampere 架构新引入的特性除了这些 CUDA 核心每一个 SM 里还集成着四个 Tensor Cores 和一个光追单元没错这些比例看起来都和 Ampere 架构一样那区别在哪呢？第一个差别是新的光追单元这次的光追单元内部新引入了两个新的处理单元第一个是 Opacity Micromap Engine 可以翻译成不透明度微映射引擎听起来很复杂对不对简单的来说就是可以帮着色器提取一次透明度信息这样一来本来就不透明的地方就不用再费工夫去单独计算光线透射或反射的效果了这样就减轻了着色器的压力提升了效率另一个是 Displaced Micro - Mesh Engine 我们可以翻译成微网格置换引擎它又是做什么的呢？这里要提到一个概念 —— BVH 遍历如果光追我们要硬算的话我们就需要对画面里的每个构建物体的三角形进行相交检测但物体一般是非常复杂的如果每一个射线都对每一个物体的每一个三角形进行相交检测那就算是再强的算力也给你吃干抹净所以我们就需要引入所谓的 “包围盒 ” 也就是 BVH 里的 BV 这东西其实就是通过一个盒子把物体包围起来射线和三角形求交之前会先和这个盒子进行求交你想想如果光线都碰不到这个盒子那自然也就没必要对这个物体上的三角形进行求交了很显然 BVH 是一种提升光追效率的手段但构建 BVH 的过程依然非常吃资源而 NVIDIA 通过提出 Micro - Mesh 这样一个基本单元来简化整个工作一些凹凸不平的精细化物体表面如果用最基本的三角形来表现就会用到海量的三角形在进行三角形求交之前即使建立 BVH 也是非常庞大的数据而 Displaced Micro - Mesh 引擎可以将复杂的物体表面用更少的三角形进行表达同时存储位移和透明度信息以保证模型的精细度这个操作就解决了这个问题它可以把构建 BVH 的速度提高 10倍把这个构建过程中的显存消耗降低 20倍这样就很明显了新的光追单元的重点就在于进一步提升光追效率而除了光追单元的硬件改进以外随着 RTX 40系列发布 NVIDIA 还带来了一个新东西叫做 SER 也就是着色器执行重排序 GPU 呢？它是一个高度并行化的硬件最擅长做大量重复的工作但在光追效果越来越厉害的现在因为不同材质的反射效果也不一样所以会处理大量乱七八糟的指令而 SER 的作用就是将这些指令重组排序在同一个时钟周期执行相近的指令来提高执行效率虽然 SER 只需要游戏集成代码即可完成支持而不需要专门的加速硬件但由于指令重排序需要动态占用大量的缓存空间因此目前只有拥有大量缓存的 Ada Lovelace 架构的 40系列显卡支持且运行效率比较高目前 30系列和之前的架构还不支持除了每个 SM 单元内对光追单元进行的改进以外在更宏观的 GPC 与 GPC 之间的层级上 Ada 架构还带来了一个非常大的变化 —— 缓存还记得去年 AMD 在 RDNA 2上引入的无限缓存吗？ 128 M 的无限缓存让仅仅配备 256 bit GDDR 6显存总带宽只有 3090一半的 6900 XT 也得到了和 3090一战的实力今年 NVIDIA 也借鉴了这种思路他们把 AD 102核心的 L 2缓存做到了 96 MB 比起 GA 102的 6 MB 大了整整 16倍而且因为 NV 这个缓存实际上是 2级缓存而 RDNA 2的无限缓存更类似于三级缓存所以 40系这个大缓存也会明显更快疗效也自然更好 4090的显存带宽相较于 3090 Ti 那只能说是原地踏步的毕竟 GDDR 6 X 显存还是那个 GDDR 6 X 这也算是在显存瓶颈的情况下另辟蹊径的做法吧对了我觉得这个操作隔壁的 5800 X 3 D 肯定也很熟悉你说对吧不过因为 4090的阉割幅度太大它实际上 4090的 L 2只有 72 MB 因为它其实和 SM 单元是绑定的只能说老黄这次给未来的 4090 Ti 还是留足了空间啊只希望隔壁接下来推出的新品能赶紧把这张完整版 AD 102逼出来吧除了这些改进以外 Ada 核心里面的 Tensor Core 也变得更强了 12 G 显存以上的卡里面 NVENC 硬件编码单元也加倍了新增支持 AV 1 硬件编码和双编码器支持结合 30系列就已发布的 AV 1 硬件解码已能够实现 AV 1格式视频的编解码全流程另外还有一个东西也变强了就是 OFA 光流加速引擎聪明的同学应该已经猜到了这东西和 DLSS 3有关这东西其实在 30系里面就存在但 40系的这个光流加速单元性能翻了一倍还多这就是 DLSS 3能够补帧的硬件基础说到 DLSS 3 我认为它其实是一个非常具有革命意义的技术这几年补帧这项技术用在了各种各样的地方小到让坤坤跳舞更顺畅大到集成到电视里进入到千家万户但要说把它用在游戏上还是一个相当大胆的创新其实我们能看出来 NV 为了做这件事其实前期铺了不少路首先是前两代 DLSS 解决了画质的问题关于前代的 DLSS 我们也有科普专门讲过感兴趣的同学可以去看看另一项关键技术则是用来降低系统延迟的 NVIDIA Reflex 首先明确一点只要涉及到补帧一定会引入延迟因为补帧的本质其实是计算它要通过前后帧之间的关系来计算出两帧之间的时间里应该得到怎样的画面这也是传统意义上补帧技术很难应用在游戏里的重要原因一方面传统的补帧技术哪怕是实时补帧延迟也是动辄数百 ms 的程度这种延迟别说玩游戏了你想音画同步都很困难要想尽可能降低这个延迟就需要尽可能算得够快 DLSS 3会利用这个 300 TOPS 的光流加速单元来进行补帧而同时还会通过游戏引擎中的运动矢量信息预测插帧中物体的运动方向以及产生的画面变化尽可能降低延迟同时保持插帧渲染的准确性但同时也一样会占用一部分的 CUDA 和 Tensor Core 算力如果 GPU 本身的算力不足的情况下 DLSS 3甚至可能会杀敌一千自损三百所以这就要说到 DLSS 3更重要的一个应用场景了就是绕开 CPU 瓶颈有些游戏因为 CPU 瓶颈实际上是根本跑不满 GPU 占用率的比如说微软飞行模拟这种游戏你很可能只能跑到 40-50 fps 但 GPU 还有相当一部分单元是空载的那这个时候 DLSS 3的这个补帧就可以帮上忙这种 CPU 瓶颈的场合补帧效率是最高的这个才是 DLSS 3技术最有用武之地的地方另一方面 DLSS 3是和 NVIDIA Reflex 绑定的所以延迟的此消彼长可以尽可能降低补帧带来的更高延迟不过说到底只要补帧就一定会引入延迟从原理上来说帧数越低补帧所造成的延迟也相应会越大明天的评测里我们也会聊到这个技术更适合从一个相对比较高的帧数提升到更高的帧数而不是从一个不可用的帧数提升到一个勉强可用的帧数这和以前的 DLSS 2是不一样的我们在后续的首发测评当中也会对 DLSS 3引入的延迟和画面质量上的表现进行深入的实测看看 DLSS 3到底是噱头还是黑魔法那么从技术层面简单归纳一下 RTX 40系显卡的特性吧先进了好几代的工艺整体变化不大的架构超级高的频率和光追效率上的改进让它的性能上限有着可以预期的大幅提高但初期产品线除了 4090以外的两款产品阉割幅度都相当大考虑到价格因素我觉得初期的 RTX 40系产品更多是面向有钱的发烧友而非主流玩家当然 DLSS 3带来的技术路径就非常有前瞻性了但是具体表现如何还是要通过实际测试的结果说话所以别忘了持续关注我们频道我们明天一解禁就会放出完整的性能评测视频来看看两年磨一剑的 RTX 4090 到底有着怎样的实力千万别忘给我们来个素质三连哦那么就到这里期待我们的节目我们明天再见

Try LingQ and learn from Netflix shows, Youtube videos, news articles and more.

RTX40系显卡评测序章：ADA 新架构变化有多大？ RTX40 series graphics card review chapter: ADA new architecture how much change? Análisis de la tarjeta de la serie RTX40 Capítulo 1: ¿Cuánto ha cambiado con la nueva arquitectura ADA?

Geekerwan, RTX40系 显卡 评测 序章 ：ADA 新 架构 变化 有 多 大？

RTX40系 显卡 评测 序章 ：ADA 新 架构 变化 有 多 大？

Want to learn Chinese? Start now!

RTX40系 显卡 评测 序章 ：ADA 新 架构 变化 有 多 大？ RTX40 series graphics card review chapter: ADA new architecture how much change? Análisis de la tarjeta de la serie RTX40 Capítulo 1: ¿Cuánto ha cambiado con la nueva arquitectura ADA?

Geekerwan, RTX40系显卡评测序章：ADA 新架构变化有多大？

RTX40系显卡评测序章：ADA 新架构变化有多大？

Want to learn Chinese?
Start now!

RTX40系显卡评测序章：ADA 新架构变化有多大？ RTX40 series graphics card review chapter: ADA new architecture how much change? Análisis de la tarjeta de la serie RTX40 Capítulo 1: ¿Cuánto ha cambiado con la nueva arquitectura ADA?