英伟达的下一代Blackwell GPU在安装到高容量服务器机架时面临严重的过热问题,据外媒报道,这些问题已经导致设计变更和延迟,并引起了谷歌、Meta和微软等客户对是否能够按时部署Blackwell服务器的担忧。
(图片来源:微软)
英伟达用于AI和高性能计算(HPC)的Blackwell GPU在服务器中使用72个处理器时会过热,这些机器预计每个机架将消耗高达120千瓦的电力。这些问题导致英伟达多次重新评估其服务器机架的设计,因为过热限制了GPU的性能,并有损坏组件的风险。客户担心这一问题会影响他们在数据中心部署新处理器的时间表。
据报道,英伟达已经指示其供应商对机架进行几次设计变更,以对抗过热问题。公司与供应商和合作伙伴密切合作,不断调整以改善服务器散热。虽然这些调整对于如此大规模的技术发布来说是标准流程,但还是导致了延迟,进一步推迟了预期的发货日期。
针对延迟和过热问题,英伟达的一位发言人表示,与云服务提供商的合作努力正在进行中,且设计变更是正常开发过程的一部分。这种与云服务提供商和供应商的合作旨在确保最终产品满足性能和可靠性预期,英伟达将继续努力解决这些技术挑战。
此前,英伟达因处理器的设计缺陷导致产量下降而不得不推迟了Blackwell的生产。英伟达的Blackwell B100和B200 GPU使用台积电的CoWoS-L封装技术连接它们的两个芯片,这种设计包括一个带有本地硅互连(LSI)桥的RDL中介层,支持高达10 TB/s的数据传输速度。这些LSI桥的精确定位对于GPU按预期工作至关重要。然而,GPU芯片、LSI桥、RDL中介层和主板基板之间的热膨胀特性不匹配导致了翘曲和系统故障。为了解决这个问题,英伟达据报道修改了GPU硅片的顶层金属层和凸起结构,以提高生产可靠性。
正因为此,Blackwell GPU的最终修订版直到10月下旬才进入大规模生产,这意味着英伟达将能够在1月下旬开始发货这些处理器。而此次机架重新设计很可能再次推迟发货时间。
包括谷歌、Meta和微软等科技巨头在内的英伟达客户需要使用英伟达的GPU来训练他们的大型语言模型。Blackwell AI GPU的延迟发货,自然会影响到英伟达客户的计划和产品。