英伟达发布B200测试结果：FP4比H100快4倍

英伟达（Nvidia）发布了其 Blackwell B4.1 GPU的第一个 MLPerf 200 结果。结果显示，Blackwell GPU 的性能是其基于 Hopper 架构的前身 H100 的四倍，凸显了英伟达作为 AI 硬件领导者的地位。但是，我们需要指出一些注意事项和免责声明。

根据英伟达的结果，基于Blackwell 的 B200 GPU 在服务器推理测试中在单个 GPU 上提供 10755 个tokens/秒，在离线参考测试中提供 11264 个tokens/秒。从其公开可用的 MLPerf Llama 2 70B 基准测试结果

https://public.tableau.com/app/profile/data.visualization6666/viz/MLCommons-InferenceDatacenter/MLCommons-Inference

发现基于 4 路 Hopper H100 的机器提供了类似的结果，这证明了英伟达的说法，即单个 Blackwell 处理器比单个 Hopper H100 GPU 快约 3.7 倍至 4 倍。但我们需要剖析这些数字以更好地理解它们。

首先，英伟达的 Blackwell 处理器使用 FP4 精度，因为其第五代 Tensor Core 支持该格式，而基于 Hopper 的 H100 仅支持和使用 FP8。MLPerf 指南允许这些不同的格式，但 Blackwell 中的 FP4 性能使其 FP8 吞吐量翻了一番，因此这是第一个需要注意的重要事项。接下来，英伟达在使用单个 B200 与四个 H100 GPU 方面有些虚伪。扩展从来都不是完美的，因此单个 GPU 往往是每个 GPU 性能的最佳情况。MLPerf 4.1 没有列出单个 GPU H100 结果，只有一个 B200 结果。然而，单个 H200 达到了 4,488 个tokens/秒，这意味着 B200 在该特定比较中仅快了 2.5 倍。内存容量和带宽也是关键因素，并且存在很大的代际差异。经过测试的 B200 GPU 配备 180GB HBM3E 内存，H100 SXM 配备 80GB HBM（某些配置高达 96GB），H200 配备 96GB HBM3 和高达 144GB 的 HBM3E。具有 96GB HBM3 的单个 H200 在离线模式下仅达到 3,114 个tokens/秒。因此，数字格式、GPU 数量、内存容量和配置方面存在潜在差异，这些差异会影响“高达 4 倍”的数字。其中许多差异仅仅是因为 Blackwell B200 是一款具有更新架构的新芯片，而所有这些都影响了其最终性能。回到配备 141GB HBM3E 内存的英伟达H200，它不仅在以 Llama 2 70B 大型语言模型为特色的生成式 AI 基准测试中也表现出色，而且在数据中心类别的每一项测试中都表现出色。出于显而易见的原因，在利用 GPU 内存容量的测试中，它的速度明显快于 H100。

目前，英伟达只公布了其 B200 在 MLPerf 4.1 生成式 AI 基准测试中 Llama 2 70B 模型的性能表现。至于这是因为它仍在进行调优，还是其他原因，我们无法确定，但 MLPerf 4.1 有九个核心测试项目，而现在我们只能猜测 Blackwell B200 如何应对其他测试。

魔女团新闻

英伟达发布B200测试结果：FP4比H100快4倍

东沛评科技