AI算力驱动冷却方式变革:数据中心液冷技术解析

鱼云 2024-12-04 08:02:07

生成式AI和各种大型模型给我们带来了全新的应用体验,同时对算力提出了更高的要求。对于数据中心运营管理者来说,GPU服务器功率密度的大幅提升,对数据中心散热设备和技术提出了更高的要求。因此,除了关注计算能力本身之外,他们也更加关注数据中心功耗、散热带来的各种问题。

1、AI算力驱动数据中心冷却方式变革

在AI算力强劲需求的推动下,数据中心的GPU服务器数量大幅增加,功耗问题日益凸显。我们知道,数据中心单个机柜的总最大风冷功率为15kW。只要机柜机架率不变,GPU服务器带来的功率提升已经接近单机柜的极限。然而,GPU功耗持续增加。

今年,正式发布了GB200旗舰GPU。该产品包含两个GPU核心,每个核心功耗约1200W,同时还拥有两个Arm CPU,功耗约300W。所以光是这款产品的总功耗就达到了恐怖的2700W。不难发现,面对高功耗、高密度场景,传统风冷显然无法满足能耗和散热需求。液冷技术凭借超高的能效和超高的热密度,成为智能计算中心温控解决方案的首选。必需的。

据IDC预测,2022年至2027年中国液冷服务器市场年复合增长率将达到54.7%,2027年市场规模将达到89亿美元。

北京最新发布的《北京市计算基础设施建设实施方案(2024-2027年)》对智能计算中心的绿色运营给出了明确的指导,指出本市新建、改建、扩建智能计算中心的PUE值一般不超过1.25 。年能耗超过3万吨标准​​煤的大型先进智能计算中心的PUE值一般不超过1.15。推动全市现有数据中心升级改造,使到规划期末,所有现有数据中心的PUE值不高于1.35。

今年年初,上海市通信管理局等11部门联合印发《上海智能计算基础设施高质量发展“算力浦江”智能计算行动实施方案(2024-2025年)》(以下简称“本方案”)。到2025年,全市智能算力将超过,占总算力的50%以上。其中,在绿色智能计算性能方面,《规划》要求到2025年,全市新建智能计算中心PUE值达到1.25以下,现有改造智能计算中心PUE值达到1.25以下。比1.4。智能计算中心绿色能源使用占比超过20%,液冷机柜数量占比超过50%。

事实上,浪潮、曙光、联想等服务器厂商已相继投入液冷技术的研发,并推出了自己的专利产品。

2、液冷系统的主要优缺点

液冷系统的主要优点是散热效率更高、能耗更低。

我们知道,在传统的风冷数据中心中,用于设备冷却散热的能耗高达40%,且散热效率不高。由于这一限制,数据中心传统风冷一般设计单机柜密度为8-10kW。由于液冷技术的导热系数是空气的25倍,带走的热量是同体积空气的近3000倍,因此可以轻松拥有超过30kW的单柜密度。

同时,除了部署液冷系统外,由于数据中心不再需要部署大量空调制冷系统,可以节省大量空间,进一步提高单机柜部署密度机房,提高数据中心单位面积的利用率。 。

尽管数据中心液体冷却系统具有许多优点,但它们也带来了许多挑战。目前,主要存在以下几个方面的问题:

首先,缺乏统一标准。无论是冷板液冷技术还是浸没式液冷技术,行业目前都没有统一的技术和施工标准。虽然百花齐放的状态更有利于技术的发展,但不同的标准也给企业带来了选择。问题和后期管理维护问题。

二是建设成本过高。与传统的风冷散热相比,液冷数据中心的建设成本仍然过高。此外,一些旧数据中心改造的投资成本过高。

三是后期管理维护困难。液冷技术发展迅速,缺乏统一的技术和施工标准,给后期的管理和维护带来很大的问题。

第四是安全问题。由于材料、制造工艺、连接方式、维护使用等多种因素的影响,冷板与电芯之间的密封可能导致冷却液泄漏的风险。泄漏不仅损害系统的性能和可靠性,还可能对周围环境造成污染和安全隐患。

3、液冷主要技术

目前主要的液冷技术包括以冷板液冷系统为代表的间接液冷技术和以浸没式液冷系统为代表的直接液冷技术。由于两者的散热设计不同,因此其散热效率也有很大差异。

1)间接液冷技术

间接冷却技术是利用冷板等介质接触CPU、内存、GPU、硬盘等表面,利用冷却剂的流动带走热量。除了冷板等介质外,间接液冷技术还包括热交换器、管道、泵、冷却剂、控制系统等部件。

目前,冷板液冷系统已成为间接液冷技术的主要解决方案。间接液冷技术的主要优点是不需要改变现有服务器的形态,设计技术难度低,部署难度相对较小,后期运维管理难度相对较低。另外,由于冷却介质多采用乙二醇水溶液,因此成本较低。

缺点是散热效率比较低,而且由于元件数量较多,故障率比较高。目前,冷板液冷系统已成为大多数数据中心的首选解决方案。

2)直接液冷技术

直接液冷技术使CPU、GPU、主板、内存等与冷却液直接接触,冷却液直接流过硬件表面吸收带走热量。目前,直接液冷技术包括浸没式液冷系统和喷雾式液冷系统。根据冷却介质是否发生相变,可分为单相浸没式和相变浸没式。

与间接冷却技术相比,直接液冷技术在液体和热源之间没有中间传导介质,热量可以更直接地传递到液体,因此散热效率更高。但直接液冷技术需要对整个数据中心进行改造和设计,部署难度较大,成本较高。

目前,直接液冷技术主要应用于散热效率要求较高的场景。

写在最后:

毫无疑问,液冷系统一定是未来数据中心的主流冷却技术。

目前,冷板液冷系统由于较为成熟,将成为第一个进入数据中心的主流液冷技术。影响冷板液冷技术普及的成本、运维、安全等问题也将随之而来。技术的发展和标准的统一都可以解决。

当然,随着技术的不断发展,浸入式液冷系统也将广泛应用于新建的高密度数据中心,进一步提高数据中心的散热效率,显着提升计算能力水平。

0 阅读:7