×

We use cookies to help make LingQ better. By visiting the site, you agree to our cookie policy.


image

Geekerwan, RTX40系 显卡 评测 序章 :ADA 新 架构 变化 有 多 大?

RTX40系 显卡 评测 序章 :ADA 新 架构 变化 有 多 大?

在 30系 发布 两年 之后 NVIDIA 终于 在 上个月 带来 了 4090和 4080 我们 也 是 第一 时间 开始 了 4090的 性能 测试 工作 因为 具体 的 性能 要 等到 11号 才能 解禁 所以 我 今天 就 先 来 聊 一下 40系 显卡 的 架构 和 技术 包括 新 的 Ada 架构 到底 有 哪些 变化 DLSS 3到底 是 怎么回事 以及 我 对 40系 显卡 产品线 的 看法 让 我们 先 从 架构 开始 40系 的 Ada 架构 其实 并 不是 像 上代 Ampere 或者 上 上代 Turing 那样 脱胎换骨 式 的 大改 而是 在 整体 结构 变化 不大 的 前提 下 进行 优化 与此同时 它 还 从 推出 时 就 不算 先进 的 三星 8 nm 工艺 直接 跳 到 了 目前 最 先进 的 台积 电 4 N 英 伟达 定制 工艺 这个 工艺 的 进步 幅度 有 多 夸张 呢 简单 来说 工艺 的 差别 已经 堪比 从 A 16和 A 11了 从 实际 密度 来说 AD 102拥有 763亿 晶体管 但 核心 面积 居然 比 只有 283亿 晶体管 的 GA 102还要 小 这 意味着 实际 密度 大约 提升 了 2.8倍! 老黄 啊 你 终于 肯 下 本钱 用 先进 工艺 造 GPU 了 这 带来 了 更 大 的 规格 更 高 的 频率 另外 最 关键 的 是 这 也 会 带来 能耗 比 的 显著 上升 可以 预见 的 是 这 一代 显卡 很 有 可能 在 笔记本 上 有着 非常 出色 的 表现 我 觉得 以 桌面 端 这个 阉割 幅度 来看 再次出现 笔记本 和 台式机 GPU 用 近似 规格 的 情况 应该 也 是 有 很大 可能 的 所以 说 我 觉得 比起 主流 台式机 平台 你 大 可以 期待 一下 40系 的 笔记本 GPU 应该 会 有 不小 的 提升 如果 仅仅 从 技术 角度 不 从 价格 角度 来看 我 其实 有点 想起 了 几年 前 的 10系卡 也 就是 Pascal 那么 接下来 我们 来 具体 说 说 Ada 架构 本身 的 特性 和 30系 的 Ampere 架构 一样 完整 的 核心 由 一个个 GPC 组成 你 可以 把 它 看作 是 GPU 内部 的 “核心 ” 来到 GPC 内部 每个 GPC 内 包含 着 12个 SM 这些 是 流 处理器 组成 的 小 单元 4090使用 的 AD 102有 12个 GPC 共 144组 SM 比 GA 102 7个 GPC 共 84组 SM 的 规格 高 了 不少 但 4090只 开启 了 其中 的 128组 这个 阉割 幅度 在 历代 基本上 是 首发 大 核心 里 阉割 幅度 最大 的 低 一档 的 AD 103也 就是 4080 16 G 所 使用 的 核心 则 使用 了 和 GA 102一样 的 84组 SM 7个 GPC 的 设计 然而 4080 16 G 也 不是 完整 核心 只有 内含 60组 SM 5个 GPC 的 AD 104的 完整 核心 在 首发 阵容 当中 它 叫做 4080 12 G 别忘了 上 一代 GA 104的 完整 核心 叫做 3070 Ti 哦 但 毕竟 NVIDIA 也 有着 像 2080、1080 这种 104完整 核心 叫做 80的 传统 所以 吐槽 归吐槽 性能 盖过 上 一代 旗舰 应该 还是 问题 不大 的 具体 架构 上 一个 SM 内部 有 128个 FP 32处理单元 这 也 就是 我们 平常 说 的 “ CUDA 核心 ” 而 这些 FP 32单元 里面 又 有 一半 是 可以 执行 INT 32指令 的 这 一点 也 是从 Ampere 架构 新 引入 的 特性 除了 这些 CUDA 核心 每 一个 SM 里 还 集成 着 四个 Tensor Cores 和 一个 光 追 单元 没错 这些 比例 看起来 都 和 Ampere 架构 一样 那 区别 在 哪 呢? 第一个 差别 是 新 的 光 追 单元 这次 的 光 追 单元 内部 新 引入 了 两个 新 的 处理单元 第一个 是 Opacity Micromap Engine 可以 翻译成 不 透明度 微 映射 引擎 听 起来 很 复杂 对 不 对 简单 的 来说 就是 可以 帮 着色器 提取 一次 透明度 信息 这样一来 本来 就 不 透明 的 地方 就 不用 再 费工夫 去 单独 计算 光线 透射 或 反射 的 效果 了 这样 就 减轻 了 着色器 的 压力 提升 了 效率 另 一个 是 Displaced Micro - Mesh Engine 我们 可以 翻译成 微 网格 置换 引擎 它 又 是 做 什么 的 呢? 这里 要 提到 一个 概念 —— BVH 遍历 如果 光 追 我们 要 硬算 的话 我们 就 需要 对 画面 里 的 每个 构建 物体 的 三角形 进行 相交 检测 但 物体 一般 是 非常复杂 的 如果 每 一个 射线 都 对 每 一个 物体 的 每 一个 三角形 进行 相交 检测 那 就算 是 再 强 的 算力 也 给 你 吃 干 抹 净 所以 我们 就 需要 引入 所谓 的 “包围 盒 ” 也 就是 BVH 里 的 BV 这 东西 其实 就是 通过 一个 盒子 把 物体 包围起来 射线 和 三角形 求交 之前 会先 和 这个 盒子 进行 求交 你 想想 如果 光线 都 碰 不到 这个 盒子 那 自然 也 就 没 必要 对 这个 物体 上 的 三角形 进行 求交 了 很 显然 BVH 是 一种 提升 光 追 效率 的 手段 但 构建 BVH 的 过程 依然 非常 吃 资源 而 NVIDIA 通过 提出 Micro - Mesh 这样 一个 基本 单元 来 简化 整个 工作 一些 凹凸不平 的 精细化 物体 表面 如果 用 最 基本 的 三角形 来 表现 就 会 用到 海量 的 三角形 在 进行 三角形 求交 之前 即使 建立 BVH 也 是 非常 庞大 的 数据 而 Displaced Micro - Mesh 引擎 可以 将 复杂 的 物体 表面 用 更 少 的 三角形 进行 表达 同时 存储 位移 和 透明度 信息 以 保证 模型 的 精细 度 这个 操作 就 解决 了 这个 问题 它 可以 把 构建 BVH 的 速度 提高 10倍 把 这个 构建 过程 中 的 显存 消耗 降低 20倍 这样 就 很 明显 了 新 的 光 追 单元 的 重点 就 在于 进一步 提升 光 追 效率 而 除了 光 追 单元 的 硬件 改进 以外 随着 RTX 40系列 发布 NVIDIA 还 带来 了 一个 新 东西 叫做 SER 也 就是 着色器 执行 重 排序 GPU 呢? 它 是 一个 高度 并行 化 的 硬件 最 擅长 做 大量 重复 的 工作 但 在 光 追 效果 越来越 厉害 的 现在 因为 不同 材质 的 反射 效果 也 不 一样 所以 会 处理 大量 乱七八糟 的 指令 而 SER 的 作用 就是 将 这些 指令 重组 排序 在 同一个 时钟 周期 执行 相近 的 指令 来 提高 执行 效率 虽然 SER 只 需要 游戏 集成 代码 即可 完成 支持 而 不 需要 专门 的 加速 硬件 但 由于 指令 重 排序 需要 动态 占用 大量 的 缓存 空间 因此 目前 只有 拥有 大量 缓存 的 Ada Lovelace 架构 的 40系列 显卡 支持 且 运行 效率 比较 高 目前 30系列 和 之前 的 架构 还 不 支持 除了 每个 SM 单元 内 对光 追 单元 进行 的 改进 以外 在 更 宏观 的 GPC 与 GPC 之间 的 层级 上 Ada 架构 还 带来 了 一个 非常 大 的 变化 —— 缓存 还 记得 去年 AMD 在 RDNA 2上 引入 的 无限 缓存 吗? 128 M 的 无限 缓存 让 仅仅 配备 256 bit GDDR 6显存 总 带宽 只有 3090一半 的 6900 XT 也 得到 了 和 3090一战 的 实力 今年 NVIDIA 也 借鉴 了 这种 思路 他们 把 AD 102核心 的 L 2缓存 做到 了 96 MB 比起 GA 102的 6 MB 大 了 整整 16倍 而且 因为 NV 这个 缓存 实际上 是 2级 缓存 而 RDNA 2的 无限 缓存 更 类似 于 三级 缓存 所以 40系 这个 大 缓存 也 会 明显 更 快 疗效 也 自然 更好 4090的 显存 带宽 相 较 于 3090 Ti 那 只能 说 是 原地踏步 的 毕竟 GDDR 6 X 显存 还是 那个 GDDR 6 X 这 也 算是 在 显存 瓶颈 的 情况 下 另辟蹊径 的 做法 吧 对 了 我 觉得 这个 操作 隔壁 的 5800 X 3 D 肯定 也 很 熟悉 你 说 对 吧 不过 因为 4090的 阉割 幅度 太 大 它 实际上 4090的 L 2只有 72 MB 因为 它 其实 和 SM 单元 是 绑定 的 只能 说 老 黄 这次 给 未来 的 4090 Ti 还是 留足 了 空间 啊 只 希望 隔壁 接下来 推出 的 新品 能 赶紧 把 这张 完整版 AD 102逼出来 吧 除了 这些 改进 以外 Ada 核心 里面 的 Tensor Core 也 变得 更强 了 12 G 显存 以上 的 卡 里面 NVENC 硬件 编码 单元 也 加倍 了 新增 支持 AV 1 硬件 编码 和 双 编码器 支持 结合 30系列 就 已 发布 的 AV 1 硬件 解码 已 能够 实现 AV 1格式 视频 的 编解码 全 流程 另外 还有 一个 东西 也 变强 了 就是 OFA 光流 加速 引擎 聪明 的 同学 应该 已经 猜 到 了 这 东西 和 DLSS 3有关 这 东西 其实 在 30系 里面 就 存在 但 40系 的 这个 光流 加速 单元 性能 翻 了 一倍 还 多 这 就是 DLSS 3能够 补帧 的 硬件 基础 说 到 DLSS 3 我 认为 它 其实 是 一个 非常 具有 革命 意义 的 技术 这 几年 补帧 这项 技术 用 在 了 各种各样 的 地方 小到 让 坤 坤 跳舞 更 顺畅 大到 集成 到 电视 里 进入 到 千家万户 但 要说 把 它 用 在 游戏 上 还是 一个 相当 大胆 的 创新 其实 我们 能 看 出来 NV 为了 做 这件 事 其实 前期 铺 了 不少 路 首先 是 前 两代 DLSS 解决 了 画质 的 问题 关于 前 代 的 DLSS 我们 也 有 科普 专门 讲过 感兴趣 的 同学 可以 去 看看 另 一项 关键技术 则 是 用来 降低 系统 延迟 的 NVIDIA Reflex 首先 明确 一点 只要 涉及 到 补 帧 一定 会 引入 延迟 因为 补帧 的 本质 其实 是 计算 它 要 通过 前后 帧 之间 的 关系 来 计算 出 两帧 之间 的 时间 里 应该 得到 怎样 的 画面 这 也 是 传统意义 上补 帧 技术 很难 应用 在 游戏 里 的 重要 原因 一方面 传统 的 补 帧 技术 哪怕 是 实时 补帧 延迟 也 是 动辄 数百 ms 的 程度 这种 延迟 别说 玩游戏 了 你 想 音画 同步 都 很 困难 要 想 尽可能 降低 这个 延迟 就 需要 尽可能 算 得 够快 DLSS 3会 利用 这个 300 TOPS 的 光流 加速 单元 来 进行 补帧 而 同时 还会 通过 游戏 引擎 中 的 运动 矢量 信息 预测 插 帧 中 物体 的 运动 方向 以及 产生 的 画面 变化 尽可能 降低 延迟 同时 保持 插 帧 渲染 的 准确性 但 同时 也 一样 会 占用 一部分 的 CUDA 和 Tensor Core 算力 如果 GPU 本身 的 算力 不足 的 情况 下 DLSS 3甚至 可能 会 杀敌 一千 自损 三百 所以 这 就要 说 到 DLSS 3更 重要 的 一个 应用 场景 了 就是 绕开 CPU 瓶颈 有些 游戏 因为 CPU 瓶颈 实际上 是 根本 跑 不满 GPU 占用率 的 比如说 微软 飞行 模拟 这种 游戏 你 很 可能 只能 跑 到 40-50 fps 但 GPU 还有 相当 一部分 单元 是 空载 的 那 这个 时候 DLSS 3的 这个 补帧 就 可以 帮 上 忙 这种 CPU 瓶颈 的 场合 补帧 效率 是 最高 的 这个 才 是 DLSS 3技术 最有 用武之地 的 地方 另一方面 DLSS 3是 和 NVIDIA Reflex 绑定 的 所以 延迟 的 此消彼长 可以 尽可能 降低 补帧 带来 的 更 高 延迟 不过 说到底 只要 补帧 就 一定 会 引入 延迟 从 原理 上 来说 帧 数越 低 补帧 所 造成 的 延迟 也 相应 会越 大 明天 的 评测 里 我们 也 会 聊到 这个 技术 更 适合 从 一个 相对 比较 高 的 帧 数 提升 到 更 高 的 帧 数 而 不是 从 一个 不可 用 的 帧 数 提升 到 一个 勉强 可用 的 帧 数 这 和 以前 的 DLSS 2是 不 一样 的 我们 在 后续 的 首发 测评 当中 也 会 对 DLSS 3引入 的 延迟 和 画面质量 上 的 表现 进行 深入 的 实测 看看 DLSS 3到底 是 噱头 还是 黑魔法 那么 从 技术 层面 简单 归纳 一下 RTX 40系 显卡 的 特性 吧 先进 了 好几代 的 工艺 整体 变化 不大 的 架构 超级 高 的 频率 和 光 追 效率 上 的 改进 让 它 的 性能 上限 有着 可以 预期 的 大幅提高 但 初期 产品线 除了 4090以外 的 两款 产品 阉割 幅度 都 相当 大 考虑 到 价格 因素 我 觉得 初期 的 RTX 40系 产品 更 多 是 面向 有钱 的 发烧友 而 非主流 玩家 当然 DLSS 3带来 的 技术 路径 就 非常 有 前瞻性 了 但是 具体表现 如何 还是 要 通过 实际 测试 的 结果 说话 所以 别忘了 持续 关注 我们 频道 我们 明天 一 解禁 就 会 放出 完整 的 性能 评测 视频 来 看看 两年 磨一剑 的 RTX 4090 到底 有着 怎样 的 实力 千万别 忘 给 我们 来个 素质 三连 哦 那么 就 到 这里 期待 我们 的 节目 我们 明天 再见


RTX40系 显卡 评测 序章 :ADA 新 架构 变化 有 多 大? RTX40 series graphics card review chapter: ADA new architecture how much change? Análisis de la tarjeta de la serie RTX40 Capítulo 1: ¿Cuánto ha cambiado con la nueva arquitectura ADA?

在 30系 发布 两年 之后 NVIDIA 终于 在 上个月 带来 了 4090和 4080 我们 也 是 第一 时间 开始 了 4090的 性能 测试 工作 因为 具体 的 性能 要 等到 11号 才能 解禁 所以 我 今天 就 先 来 聊 一下 40系 显卡 的 架构 和 技术 包括 新 的 Ada 架构 到底 有 哪些 变化 DLSS 3到底 是 怎么回事 以及 我 对 40系 显卡 产品线 的 看法 让 我们 先 从 架构 开始 40系 的 Ada 架构 其实 并 不是 像 上代 Ampere 或者 上 上代 Turing 那样 脱胎换骨 式 的 大改 而是 在 整体 结构 变化 不大 的 前提 下 进行 优化 与此同时 它 还 从 推出 时 就 不算 先进 的 三星 8 nm 工艺 直接 跳 到 了 目前 最 先进 的 台积 电 4 N 英 伟达 定制 工艺 这个 工艺 的 进步 幅度 有 多 夸张 呢 简单 来说 工艺 的 差别 已经 堪比 从 A 16和 A 11了 从 实际 密度 来说 AD 102拥有 763亿 晶体管 但 核心 面积 居然 比 只有 283亿 晶体管 的 GA 102还要 小 这 意味着 实际 密度 大约 提升 了 2.8倍! 老黄 啊 你 终于 肯 下 本钱 用 先进 工艺 造 GPU 了 这 带来 了 更 大 的 规格 更 高 的 频率 另外 最 关键 的 是 这 也 会 带来 能耗 比 的 显著 上升 可以 预见 的 是 这 一代 显卡 很 有 可能 在 笔记本 上 有着 非常 出色 的 表现 我 觉得 以 桌面 端 这个 阉割 幅度 来看 再次出现 笔记本 和 台式机 GPU 用 近似 规格 的 情况 应该 也 是 有 很大 可能 的 所以 说 我 觉得 比起 主流 台式机 平台 你 大 可以 期待 一下 40系 的 笔记本 GPU 应该 会 有 不小 的 提升 如果 仅仅 从 技术 角度 不 从 价格 角度 来看 我 其实 有点 想起 了 几年 前 的 10系卡 也 就是 Pascal 那么 接下来 我们 来 具体 说 说 Ada 架构 本身 的 特性 和 30系 的 Ampere 架构 一样 完整 的 核心 由 一个个 GPC 组成 你 可以 把 它 看作 是 GPU 内部 的 “核心 ” 来到 GPC 内部 每个 GPC 内 包含 着 12个 SM 这些 是 流 处理器 组成 的 小 单元 4090使用 的 AD 102有 12个 GPC 共 144组 SM 比 GA 102 7个 GPC 共 84组 SM 的 规格 高 了 不少 但 4090只 开启 了 其中 的 128组 这个 阉割 幅度 在 历代 基本上 是 首发 大 核心 里 阉割 幅度 最大 的 低 一档 的 AD 103也 就是 4080 16 G 所 使用 的 核心 则 使用 了 和 GA 102一样 的 84组 SM 7个 GPC 的 设计 然而 4080 16 G 也 不是 完整 核心 只有 内含 60组 SM 5个 GPC 的 AD 104的 完整 核心 在 首发 阵容 当中 它 叫做 4080 12 G 别忘了 上 一代 GA 104的 完整 核心 叫做 3070 Ti 哦 但 毕竟 NVIDIA 也 有着 像 2080、1080 这种 104完整 核心 叫做 80的 传统 所以 吐槽 归吐槽 性能 盖过 上 一代 旗舰 应该 还是 问题 不大 的 具体 架构 上 一个 SM 内部 有 128个 FP 32处理单元 这 也 就是 我们 平常 说 的 “ CUDA 核心 ” 而 这些 FP 32单元 里面 又 有 一半 是 可以 执行 INT 32指令 的 这 一点 也 是从 Ampere 架构 新 引入 的 特性 除了 这些 CUDA 核心 每 一个 SM 里 还 集成 着 四个 Tensor Cores 和 一个 光 追 单元 没错 这些 比例 看起来 都 和 Ampere 架构 一样 那 区别 在 哪 呢? 第一个 差别 是 新 的 光 追 单元 这次 的 光 追 单元 内部 新 引入 了 两个 新 的 处理单元 第一个 是 Opacity Micromap Engine 可以 翻译成 不 透明度 微 映射 引擎 听 起来 很 复杂 对 不 对 简单 的 来说 就是 可以 帮 着色器 提取 一次 透明度 信息 这样一来 本来 就 不 透明 的 地方 就 不用 再 费工夫 去 单独 计算 光线 透射 或 反射 的 效果 了 这样 就 减轻 了 着色器 的 压力 提升 了 效率 另 一个 是 Displaced Micro - Mesh Engine 我们 可以 翻译成 微 网格 置换 引擎 它 又 是 做 什么 的 呢? 这里 要 提到 一个 概念 —— BVH 遍历 如果 光 追 我们 要 硬算 的话 我们 就 需要 对 画面 里 的 每个 构建 物体 的 三角形 进行 相交 检测 但 物体 一般 是 非常复杂 的 如果 每 一个 射线 都 对 每 一个 物体 的 每 一个 三角形 进行 相交 检测 那 就算 是 再 强 的 算力 也 给 你 吃 干 抹 净 所以 我们 就 需要 引入 所谓 的 “包围 盒 ” 也 就是 BVH 里 的 BV 这 东西 其实 就是 通过 一个 盒子 把 物体 包围起来 射线 和 三角形 求交 之前 会先 和 这个 盒子 进行 求交 你 想想 如果 光线 都 碰 不到 这个 盒子 那 自然 也 就 没 必要 对 这个 物体 上 的 三角形 进行 求交 了 很 显然 BVH 是 一种 提升 光 追 效率 的 手段 但 构建 BVH 的 过程 依然 非常 吃 资源 而 NVIDIA 通过 提出 Micro - Mesh 这样 一个 基本 单元 来 简化 整个 工作 一些 凹凸不平 的 精细化 物体 表面 如果 用 最 基本 的 三角形 来 表现 就 会 用到 海量 的 三角形 在 进行 三角形 求交 之前 即使 建立 BVH 也 是 非常 庞大 的 数据 而 Displaced Micro - Mesh 引擎 可以 将 复杂 的 物体 表面 用 更 少 的 三角形 进行 表达 同时 存储 位移 和 透明度 信息 以 保证 模型 的 精细 度 这个 操作 就 解决 了 这个 问题 它 可以 把 构建 BVH 的 速度 提高 10倍 把 这个 构建 过程 中 的 显存 消耗 降低 20倍 这样 就 很 明显 了 新 的 光 追 单元 的 重点 就 在于 进一步 提升 光 追 效率 而 除了 光 追 单元 的 硬件 改进 以外 随着 RTX 40系列 发布 NVIDIA 还 带来 了 一个 新 东西 叫做 SER 也 就是 着色器 执行 重 排序 GPU 呢? 它 是 一个 高度 并行 化 的 硬件 最 擅长 做 大量 重复 的 工作 但 在 光 追 效果 越来越 厉害 的 现在 因为 不同 材质 的 反射 效果 也 不 一样 所以 会 处理 大量 乱七八糟 的 指令 而 SER 的 作用 就是 将 这些 指令 重组 排序 在 同一个 时钟 周期 执行 相近 的 指令 来 提高 执行 效率 虽然 SER 只 需要 游戏 集成 代码 即可 完成 支持 而 不 需要 专门 的 加速 硬件 但 由于 指令 重 排序 需要 动态 占用 大量 的 缓存 空间 因此 目前 只有 拥有 大量 缓存 的 Ada Lovelace 架构 的 40系列 显卡 支持 且 运行 效率 比较 高 目前 30系列 和 之前 的 架构 还 不 支持 除了 每个 SM 单元 内 对光 追 单元 进行 的 改进 以外 在 更 宏观 的 GPC 与 GPC 之间 的 层级 上 Ada 架构 还 带来 了 一个 非常 大 的 变化 —— 缓存 还 记得 去年 AMD 在 RDNA 2上 引入 的 无限 缓存 吗? 128 M 的 无限 缓存 让 仅仅 配备 256 bit GDDR 6显存 总 带宽 只有 3090一半 的 6900 XT 也 得到 了 和 3090一战 的 实力 今年 NVIDIA 也 借鉴 了 这种 思路 他们 把 AD 102核心 的 L 2缓存 做到 了 96 MB 比起 GA 102的 6 MB 大 了 整整 16倍 而且 因为 NV 这个 缓存 实际上 是 2级 缓存 而 RDNA 2的 无限 缓存 更 类似 于 三级 缓存 所以 40系 这个 大 缓存 也 会 明显 更 快 疗效 也 自然 更好 4090的 显存 带宽 相 较 于 3090 Ti 那 只能 说 是 原地踏步 的 毕竟 GDDR 6 X 显存 还是 那个 GDDR 6 X 这 也 算是 在 显存 瓶颈 的 情况 下 另辟蹊径 的 做法 吧 对 了 我 觉得 这个 操作 隔壁 的 5800 X 3 D 肯定 也 很 熟悉 你 说 对 吧 不过 因为 4090的 阉割 幅度 太 大 它 实际上 4090的 L 2只有 72 MB 因为 它 其实 和 SM 单元 是 绑定 的 只能 说 老 黄 这次 给 未来 的 4090 Ti 还是 留足 了 空间 啊 只 希望 隔壁 接下来 推出 的 新品 能 赶紧 把 这张 完整版 AD 102逼出来 吧 除了 这些 改进 以外 Ada 核心 里面 的 Tensor Core 也 变得 更强 了 12 G 显存 以上 的 卡 里面 NVENC 硬件 编码 单元 也 加倍 了 新增 支持 AV 1 硬件 编码 和 双 编码器 支持 结合 30系列 就 已 发布 的 AV 1 硬件 解码 已 能够 实现 AV 1格式 视频 的 编解码 全 流程 另外 还有 一个 东西 也 变强 了 就是 OFA 光流 加速 引擎 聪明 的 同学 应该 已经 猜 到 了 这 东西 和 DLSS 3有关 这 东西 其实 在 30系 里面 就 存在 但 40系 的 这个 光流 加速 单元 性能 翻 了 一倍 还 多 这 就是 DLSS 3能够 补帧 的 硬件 基础 说 到 DLSS 3 我 认为 它 其实 是 一个 非常 具有 革命 意义 的 技术 这 几年 补帧 这项 技术 用 在 了 各种各样 的 地方 小到 让 坤 坤 跳舞 更 顺畅 大到 集成 到 电视 里 进入 到 千家万户 但 要说 把 它 用 在 游戏 上 还是 一个 相当 大胆 的 创新 其实 我们 能 看 出来 NV 为了 做 这件 事 其实 前期 铺 了 不少 路 首先 是 前 两代 DLSS 解决 了 画质 的 问题 关于 前 代 的 DLSS 我们 也 有 科普 专门 讲过 感兴趣 的 同学 可以 去 看看 另 一项 关键技术 则 是 用来 降低 系统 延迟 的 NVIDIA Reflex 首先 明确 一点 只要 涉及 到 补 帧 一定 会 引入 延迟 因为 补帧 的 本质 其实 是 计算 它 要 通过 前后 帧 之间 的 关系 来 计算 出 两帧 之间 的 时间 里 应该 得到 怎样 的 画面 这 也 是 传统意义 上补 帧 技术 很难 应用 在 游戏 里 的 重要 原因 一方面 传统 的 补 帧 技术 哪怕 是 实时 补帧 延迟 也 是 动辄 数百 ms 的 程度 这种 延迟 别说 玩游戏 了 你 想 音画 同步 都 很 困难 要 想 尽可能 降低 这个 延迟 就 需要 尽可能 算 得 够快 DLSS 3会 利用 这个 300 TOPS 的 光流 加速 单元 来 进行 补帧 而 同时 还会 通过 游戏 引擎 中 的 运动 矢量 信息 预测 插 帧 中 物体 的 运动 方向 以及 产生 的 画面 变化 尽可能 降低 延迟 同时 保持 插 帧 渲染 的 准确性 但 同时 也 一样 会 占用 一部分 的 CUDA 和 Tensor Core 算力 如果 GPU 本身 的 算力 不足 的 情况 下 DLSS 3甚至 可能 会 杀敌 一千 自损 三百 所以 这 就要 说 到 DLSS 3更 重要 的 一个 应用 场景 了 就是 绕开 CPU 瓶颈 有些 游戏 因为 CPU 瓶颈 实际上 是 根本 跑 不满 GPU 占用率 的 比如说 微软 飞行 模拟 这种 游戏 你 很 可能 只能 跑 到 40-50 fps 但 GPU 还有 相当 一部分 单元 是 空载 的 那 这个 时候 DLSS 3的 这个 补帧 就 可以 帮 上 忙 这种 CPU 瓶颈 的 场合 补帧 效率 是 最高 的 这个 才 是 DLSS 3技术 最有 用武之地 的 地方 另一方面 DLSS 3是 和 NVIDIA Reflex 绑定 的 所以 延迟 的 此消彼长 可以 尽可能 降低 补帧 带来 的 更 高 延迟 不过 说到底 只要 补帧 就 一定 会 引入 延迟 从 原理 上 来说 帧 数越 低 补帧 所 造成 的 延迟 也 相应 会越 大 明天 的 评测 里 我们 也 会 聊到 这个 技术 更 适合 从 一个 相对 比较 高 的 帧 数 提升 到 更 高 的 帧 数 而 不是 从 一个 不可 用 的 帧 数 提升 到 一个 勉强 可用 的 帧 数 这 和 以前 的 DLSS 2是 不 一样 的 我们 在 后续 的 首发 测评 当中 也 会 对 DLSS 3引入 的 延迟 和 画面质量 上 的 表现 进行 深入 的 实测 看看 DLSS 3到底 是 噱头 还是 黑魔法 那么 从 技术 层面 简单 归纳 一下 RTX 40系 显卡 的 特性 吧 先进 了 好几代 的 工艺 整体 变化 不大 的 架构 超级 高 的 频率 和 光 追 效率 上 的 改进 让 它 的 性能 上限 有着 可以 预期 的 大幅提高 但 初期 产品线 除了 4090以外 的 两款 产品 阉割 幅度 都 相当 大 考虑 到 价格 因素 我 觉得 初期 的 RTX 40系 产品 更 多 是 面向 有钱 的 发烧友 而 非主流 玩家 当然 DLSS 3带来 的 技术 路径 就 非常 有 前瞻性 了 但是 具体表现 如何 还是 要 通过 实际 测试 的 结果 说话 所以 别忘了 持续 关注 我们 频道 我们 明天 一 解禁 就 会 放出 完整 的 性能 评测 视频 来 看看 两年 磨一剑 的 RTX 4090 到底 有着 怎样 的 实力 千万别 忘 给 我们 来个 素质 三连 哦 那么 就 到 这里 期待 我们 的 节目 我们 明天 再见