英伟达发布B200测试结果:FP4比H100快4倍

东沛评科技 2024-08-29 17:08:44

英伟达(Nvidia)发布了其 Blackwell B4.1 GPU的第一个 MLPerf 200 结果。结果显示,Blackwell GPU 的性能是其基于 Hopper 架构的前身 H100 的四倍,凸显了英伟达作为 AI 硬件领导者的地位。但是,我们需要指出一些注意事项和免责声明。

根据英伟达的结果,基于Blackwell 的 B200 GPU 在服务器推理测试中在单个 GPU 上提供 10755 个tokens/秒,在离线参考测试中提供 11264 个tokens/秒。从其公开可用的 MLPerf Llama 2 70B 基准测试结果

https://public.tableau.com/app/profile/data.visualization6666/viz/MLCommons-InferenceDatacenter/MLCommons-Inference

发现基于 4 路 Hopper H100 的机器提供了类似的结果,这证明了英伟达的说法,即单个 Blackwell 处理器比单个 Hopper H100 GPU 快约 3.7 倍至 4 倍。但我们需要剖析这些数字以更好地理解它们。

首先,英伟达的 Blackwell 处理器使用 FP4 精度,因为其第五代 Tensor Core 支持该格式,而基于 Hopper 的 H100 仅支持和使用 FP8。MLPerf 指南允许这些不同的格式,但 Blackwell 中的 FP4 性能使其 FP8 吞吐量翻了一番,因此这是第一个需要注意的重要事项。接下来,英伟达在使用单个 B200 与四个 H100 GPU 方面有些虚伪。扩展从来都不是完美的,因此单个 GPU 往往是每个 GPU 性能的最佳情况。MLPerf 4.1 没有列出单个 GPU H100 结果,只有一个 B200 结果。然而,单个 H200 达到了 4,488 个tokens/秒,这意味着 B200 在该特定比较中仅快了 2.5 倍。内存容量和带宽也是关键因素,并且存在很大的代际差异。经过测试的 B200 GPU 配备 180GB HBM3E 内存,H100 SXM 配备 80GB HBM(某些配置高达 96GB),H200 配备 96GB HBM3 和高达 144GB 的 HBM3E。具有 96GB HBM3 的单个 H200 在离线模式下仅达到 3,114 个tokens/秒。因此,数字格式、GPU 数量、内存容量和配置方面存在潜在差异,这些差异会影响“高达 4 倍”的数字。其中许多差异仅仅是因为 Blackwell B200 是一款具有更新架构的新芯片,而所有这些都影响了其最终性能。回到配备 141GB HBM3E 内存的英伟达H200,它不仅在以 Llama 2 70B 大型语言模型为特色的生成式 AI 基准测试中也表现出色,而且在数据中心类别的每一项测试中都表现出色。出于显而易见的原因,在利用 GPU 内存容量的测试中,它的速度明显快于 H100。

目前,英伟达只公布了其 B200 在 MLPerf 4.1 生成式 AI 基准测试中 Llama 2 70B 模型的性能表现。至于这是因为它仍在进行调优,还是其他原因,我们无法确定,但 MLPerf 4.1 有九个核心测试项目,而现在我们只能猜测 Blackwell B200 如何应对其他测试。

4 阅读:205