吹牛 还是 真牛 ?苹果 M1 全网 最 硬核 评测 (上) (2)
x 86 CPU 的 AVX 性能 在 如今 十分 重要 曾经 Zen 2相较 于 Zen 和 Zen +的 巨大 提升 很大 程度 就 来源于 AVX 性能 的 提升 而 AVX 作为 SIMD 指令集 十分 依赖 SIMD 宽度 而 ARM 架构 中 类似 于 AVX 的 指令集 叫做 Neon M 1的 每个 核心 里 有 4个 128 bit 的 Neon 管道 这个 规格 和 Skylake 以及 Zen 3是 同一 水平 至少 在 处理器 架构 层面 上 这颗 ARM 处理器 的 浮点 性能 已经 站上 了 和 x 86最 先进 的 架构 平等 的 水平 除此之外 M 1还有 一个 能 让 浮点 单元 和 NPU 里应外合 的 AMX 指令集 这 让 它 的 浮点 性能 更上一层楼 但 浮点 性能 的 发挥 还 和 频率 以及 内存 性能 有关 那么 接下来 我们 来 聊聊 M 1的 缓存 与 内存 设计 缓存 对 CPU 的 PPC 有着 巨大 的 帮助 Zen 2的 桌面版 和 移动 版 的 差距 就是 由于 L 3缓存 导致 的 而 Ice Lake 和 Tiger Lake 更是 几乎 只有 缓存 设计 上 的 区别 苹果 在 M 1的 大 核里 塞进 了 12 MB 的 共享 L 2缓存 作为 对比 A 14里面 的 大核 的 L 2缓存 是 8 MB 这 应该 是 现代 CPU 里 最大 的 二级缓存 设计 平均 每 核心 3 MB 的 二级缓存 远大于 Tiger Lake 或者 Zen 3的 L 2缓存 更 接近 它们 的 三级 缓存 上次 在 苹果 以外 的 CPU 上 见到 这样 的 大 L 2还是 酷睿 2时代 M 1的 小 核心 则 配置 了 4 MB 的 L 2缓存 这个 大小 就 更 接近 我们 认知 中 的 L 2缓存 了 但 因为 我们 没有 办法 在 新 MacBook Pro 上 跑 AIDA 64之类 的 测试工具 所以 M 1和 Zen 3以及 Tiger Lake 的 L 2性能 差别 我们 还 不得而知 一般来说 L 2容量 越大 延迟 就 越 难 优化 但 就 容量 来看 M 1的 规格 确实 有点 吓人 除此之外 M 1还有 一个 类似 三级 缓存 的 系统 级别 缓存 这个 缓存 是 CPU 、 GPU 和 NPU 等 单元 共享 的 从 官方 keynote 里 公布 的 DIE Shot 来看 应该 和 A 14一样 都 是 16 MB 因为 GPU 也 要 用 这个 缓存 CPU 的 大 L 2缓存 应该 和 这 一点 也 有 关系 内存 方面 M 1配备 了 苹果 称之为 统一 内存 架构 实际上 这 并 不是 苹果 第一次 这样 做 左边 是 iPad Pro 里面 的 A 12 X 和 A 12 Z 右边 是 这次 的 M 1 是不是 发现 它们 长得 很 像? 事实上 新 的 内存 架构 应该 在 A 12 X 时 就 已经 应用 在 了 iPad Pro 里面 M 1集成 在 片 上 的 内存 是 双通道 的 LPDDR 4 X 4266 这里 我 说 的 双通道 指 的 是 128 bit 不是 手机 常说 的 64 bit 带宽 相比 A 14是 翻番 的 和 内存 配置 比较 好 的 Intel 、 AMD 核显 笔记本 带宽 近似 但 计算机 里 有 一个 常识 距离 越近 延迟 越低 所以 苹果 这个 操作 应该 主要 是 为了 降低 延迟 以及 更好 保证 GPU 的 性能 表现 当然 升级 内存 就别 想 了 尤其 是 这次 的 Mac mini 彻底 关上 了 升级 硬件 的 大门 买来 是 啥 样 就是 啥样 至于 笔记本 不能 换 硬件 已经 四年 了 倒 是 没 啥 影响 大家 都 习惯 了 容量 方面 这次 提供 了 8 GB 和 16 GB 两种 这 两个 容量 其实 就是 在 告诉 你 这次 的 新 电脑 就 不是 给 强 生产力 用户 准备 的 也许 明年 夏天 之后 看 苹果 会 在 稍微 高阶 的 产品 上用 上 32 G 及 以上 的 片 上 内存 但 虽说 这次 M 1用 上 了 统一 内存 架构 但 我 还是 有 一点 更 不切实际 的 贪念 什么 时候 苹果 能 抛弃 DDR 内存 把 HBM 技术 用 在 自家 的 SoC 上 就 牛 逼 炸 了 我 相信 能 做到 这步 的 目前 有且 只有 苹果 就 看 他们 愿不愿意 这样 干 了 毕竟 这 成本 可不 低 简单 总结 一下 M 1的 架构 这 应该 是 目前 最 “超大 杯 ”的 处理器 核心 即使 和 Zen 3、 Skylake 相比 依然 十分 巨大 加上 使用 了 目前 桌面 CPU 唯一 的 5 nm 工艺 这颗 处理器 的 表现 很 令人 期待 其实 这么 分析 下来 你 会 发现 AMD 的 Zen 3架构 也 非常 优秀 似乎 只是 规格 不如 M 1那么 暴力 也许 再 做 宽 一点 就 能 在 IPC 上 打败 M 1了 可 为什么 其他 厂商 不去 做 像 M 1处理器 一样 宽 的 架构 来 提升 IPC 呢? 其实 这里 包含 着 几个 方面 的 原因 苹果 的 处理器 不 外卖 它 卖 的 是 笔记本 、平板 和 手机 但 其他 处理器 厂商 卖 的 是 处理器 甭管 你 是 高通 还是 Intel 、 AMD 他们 赚 的 是 处理器 那 部分 的 利润 苹果 就 可以 省出 这部分 利润 用来 继续 堆 规格 但 整机 的 成本 却 不会 上涨 甚至 因为 Mac 和 iOS 设备 共享 处理器 架构 处理器 的 研发 成本 还 可以 得到 iPhone 和 iPad 的 分摊 于是 在 处理器 制造 成本 可能 比 intel 或 AMD 更 高 的 情况 下 苹果 赚 的 反而 更 多 了 苹果 在 A 11的 时代 就 在 硬件 层面 终结 了 对 32位 应用 的 支持 而 macOS 也 在 去年 的 10.15版本 里 去掉 了 对 32位 应用 的 支持 到 如今 已经 完成 了 全 64位 软件 的 准备 你 能 想象 你 买 回家 的 Zen 3处理器 完全 不 支持 32位 应用 吗? 如果 真的 这样 估计 你 得 爆炸 但 苹果 对 生态 的 控制 使得 他们 可以 用 一定 的 兼容性 换取 更强 的 性能 而 x 86就 得 背着 这种 具有 数十年 历史 的 “ x 86税 ” 在 增加 性能 的 同时 继续 保持 对 上古 软件 的 兼容 但 这种 兼容性 也 是 要 占 面积 和 费电 的 M 1毕竟 脱胎 于 A 14 而 A 14来自 于 手机 这 意味着 它 要 用 更 高 的 IPC 去 换取 更 低 的 频率 和 电压 这样 才能 保证 移动 设备 的 续航 对 AMD 和 Intel 来说 应用 它们 处理器 的 最 低功耗 设备 是 笔记本 而 更 高功耗 的 台式机 并不需要 考虑 续航 问题 所以 他们 可以 用 更 高 的 频率 获得 相同 的 性能 虽然 此时 的 能耗 比会 下降 但 绝对 性能 上 4.5 GHz -5 GHz 的 Zen 3也 不会 低于 3.2 GHz 的 M 1 可以 说 M 1虽然 是 同频 性能 之王 但 未必 是 同 面积 性能 之王 前面 也 说 了 面积 就是 制造 成本 这 对于 双核 或者 四核 可能 不会 差 那么 大 那 如果 是 16个 核 乃至 64个 核 呢? 处理器 厂商 的 一个 架构 要 覆盖 笔记本 到 服务器 那么 这件 事 就 不得不 考虑 了 说白了 处理器 的 设计 无非 就是 平衡 功耗 、性能 和 成本 功耗 会 因为 频率 和 电压 而 大幅 上升 成本 会 由于 利润率 的 要求 尽可能 压低 所以 反映 在 性能 上 就 得 找到 一个 平衡点 了 苹果 的 特别之处 就 在于 有 足够 强大 的 生态 这 三者 它 都 有着 绝对 的 控制权 于是 就 可以 找到 一个 相对 高 的 平衡点 所以 M 1就 这样 横空出世 了 接下来 的 实际 测试 里 我们 会 实际 来 看看 它 的 真实性 能 、功耗 表现 我们 还会 分析 一下 它 的 每 核心 功耗 对比 一下 x 86阵营 里 最 先进 的 Zen 3处理器 以及 和 同 架构 的 小弟 A 14对比 来 看看 苹果 是否 在 频率 上 还 留 了 一手 那么 在 进入 实际 测试 之前 我们 再 来 聊 一个 非常 重要 的 东西 —— Rosetta 2 Rosetta 2可以 说 是 M 1 Mac 的 一个 杀手锏 毕竟 苹果 不是 第一次 做 处理器 架构 间 的 转换 工具 了 第一代 Rosetta 正是 Mac 从 Power PC 转向 Intel 架构 时 苹果 推出 的 秘密武器 而 这次 的 第二代 让 我们 看到 了 苹果 牌 补丁 的 实力 首先 它 的 兼容性 确实 不错 不像 隔壁 搞 了 一年 多才 姗姗来迟 的 x 86-64支持 苹果 的 Rosetta 2从 一 开始 就 能 跑 x 86-64应用 而且 兼容性 大家 也 看 了 不少 评测 确实 不错 基本上 老 Mac 用户 可以 直接 用 Time Machine 恢复 他们 的 备份 到 M 1的 Mac 绝大多数 软件 运行 都 没 啥 问题 但 作为 一个 转译 器 除了 要 保证 兼容性 性能 表现 也 十分 重要 其实 在 这里 苹果 用 上 了 它们 最大 的 优势 ——软硬件 结合 ARM 和 x 86的 内存 一致性 模型 不同 这会 导致 多线程 软件 运行 的 问题 苹果 在 M 1里 直接 做 了 两版 内存 模型 在 运行 原生 应用 的 时候 使用 ARM 的 那套 而 在 运行 X 86转译 应用 时 就 切换 到 x 86的 那套 这种 深入骨髓 的 软硬 结合 是 其他 厂商 羡慕 却 学不来 的 这才 带来 了 Rosetta 2的 优秀 表现 说白了 Rosetta 2并 不仅仅 是 一个 软件 层面 的 转译 器 而是 需要 配合 苹果 自己 的 处理器 设计 才 实现 了 如今 的 表现 另一方面 Rosetta 2并 不是 一个 动态 转译 器 它 是 一个 静态 转译 器 在 你 第一次 打开 x 86应用 时 它会 帮 你 默默 转换 完 你 的 软件 之后 打开 的 时候 就 会 直接 打开 翻译 后 的 代码 形象 点 说 动态 翻译器 就 像是 同声 传译 而 静态 翻译 就 像是 字幕组 做好 了 熟肉 再 给 你 看 这样一来 性能 损失 会 更 小 也 更 容易 保持 软件 的 稳定 但 如果 你 是 个 完全 不 关心 电脑 里 用 什么 处理器 的 人 它 第一次 打开 譬如 Word 之类 的 软件 时 时间 长得 可能 会 让 你 觉得 你 新 买 的 电脑 坏 了 不过 好 在 Office 已经 原生 兼容 了 M 1处理器 VS Code 也 是 微软 不愧 是 苹果 最佳 开发者 总结 一下 在 两年 的 过渡期 内 Rosetta 2的 表现 直接 决定 了 使用 Apple Silicon 处理器 的 Mac 能 用 多少 老 软件 看看 隔壁 的 Surface Pro X 你 就 知道 如果 转译 器 做 不好 会 造成 多 翻车 的 结果 所以 带 着 曾经 开发 初代 Rosetta 得到 的 宝贵 经验 苹果 用 软硬兼施 +静态 翻译 的 做法 做出 了 一个 稳定 且 高效 的 Rosetta 2 在我看来 这才 是 M 1得以 完成 它 的 历史 任务 的 首要 功臣 这 期 视频 我们 主要 聊 性能 所以 我会 测试 Rosetta 转译 后 M 1的 性能 表现 兼容性 的 部分 我们 下期 再 详细 测试 但 就 一个月 的 使用 体验 来看 不 兼容 的 软件 很少 这 是 个 很 成熟 的 果味 补丁 我 的 MacBook Pro 13寸 是 16 GB 内存 +1 TB 硬盘 的 版本 我们 接下来 对 M 1的 性能 测试 就 在 这台 电脑 上 完成 温度 的 读数 则 通过 iStatistica Pro 来 完成 功耗 的 读数 我们 使用 Mac 自带 的 PowerMetrics 来 完成 首先 咱们 从 CPU 性能 开始 M 1的 CPU 由 4个 Firestorm 大核 和 4个 IceStorm 小核 组成 大核 频率 3.2 GHz 小核 频率 2.064 GHz 由于 目前 跨平台 测试 的 工具 还 很 有限 所以 与 其他 桌面 CPU 的 对比 我们 使用 Cinebench R 23来 完成 在 R 23当中 M 1跑 出 了 多 核 7823、单核 1514分 的 成绩 单核 成绩 和 1165 G 7基本相同 但略弱 于 默认 状态 的 5600 X 而多核 成绩 整体 成绩 几乎 和 4核 8线程 时 的 Zen 3在 4.5 GHz 的 性能 一模一样 超过 全核睿频 还 不到 4 GHz 的 英特尔 i 7 1165 G 7不少 但 面对 R 7 4800 U 这样 8核 16线程 的 选手 就 毫无 还手 之力 了 更 不要 说 R 7 4800 H 这样 的 标压 处理器 了 就 R 23的 表现 来看 3.2 GHz 下 的 M 1大 核心 约等于 4.7 GHz 下 的 Tiger Lake 或 4.5 GHz 下 的 Zen 3 IPC 应该 是 目前 消费 级 处理器 的 最高 水平 由于 大小 核 设计 它 的 多 核 性能 基本 等同于 Zen 3在 4核心 8线程 时 的 表现 满载 时 你 大 可以 把 M 1当作 是 4核 8线程 的 处理器 为了 方便 和 移动 端的 ARM 芯片 对比 我们 也 跑 了 一下 Geekbench 5 单核 成绩 比 iPad Air 4上 3.0 GHz 的 A 14高 大约 9% 比 A 12 Z 则 高出 约 56% 多核 则 比 满血 A 14高出 了 78% 相 较 于 A 12 Z 也 有着 68%的 优势 可以 说 远远 甩开 目前 移动 端的 所有 ARM 处理器 并 不是 一个 量级 但 M 1毕竟 初来乍到 现在 不少 软件 依然 不是 原生 ARM 指令集 那 M 1在 经过 Rosetta 2转移 器 模拟 x 86处理器 时有 怎样 的 性能 表现 呢? 我们 用 了 三代 Cinebench 进行 了 测试 结果 很 有趣 Cinebench R 23中 经过 了 转译 的 M 1跑 出 了 单核 999分 多核 5241分 的 成绩 大约 相当于 原生 状态 的 67% 这个 成绩 甚至 要 低于 同样 以 3.2 GHz 运行 的 4核 8线程 Zen 3 也 低于 除 Skylake 以外 参测 的 的 其他 x 86处理器 但 相 较 于 定频 3.2 GHz 运行 的 4核 8线 Skylake 来说 还是 有 优势 的