热浪和人工智能给数据中心高效运营带来巨大压力

鱼云 2024-11-25 12:02:00

最佳温度范围是数据中心高效运行的关键因素。然而,随着全球进入酷暑时期,停电风险变得更加严重且越来越大。

热浪会导致数据中心组件过热和故障,导致运营商关闭服务器以防止损坏,从而导致停机和潜在的停电。

例如,2022 年 7 月,伦敦气温达到创纪录的 104 华氏度(40 摄氏度),导致冷却系统故障并导致数据中心离线。两个月后,酷热摧毁了萨克拉门托地区的一个数据中心。

Labs首席技术官兼联合创始人Peter指出,敏感电子设备和硬件(例如服务器、存储设备和网络设备)中的各种组件可以在给定的工作温度下以最佳状态运行。

数据中心的建议温度范围可能低至 65 华氏度或高达 95 华氏度,在防止过热和潜在设备损坏方面发挥着关键作用。

该范围由特定硬件目标的工作温度范围以及该硬件可以运行的条件决定。

“这将是一个反复出现的问题,而且随着我们遇到越来越多的热浪——热浪加上停电、数据中心离线,情况会变得更糟,”他说。

企业可持续发展总监 Mike 解释说,温度波动始终是数据中心运营的一个考虑因素,预期的天气范围并不是主要问题。

“我们已经解决了这个问题。相反,极端温度,尤其是高温,会给电网带来巨大压力,并可能增加当地生活用水系统的使用,具体取决于冷却系统。”

当热浪袭来时,根据系统类型和冷却技术的不同,电力和水的使用量可能会增加,从而给当地市场带来额外的压力。

指出,这在电力和水资源有限的地区,例如美国的德克萨斯州和亚利桑那州,成为尤为突出的问题。

确保热浪期间的连续性

解释说,由于当今世界各地经历了极端炎热的天气,许多人都参与到确保数据中心能够继续运行的工作中。

确保热浪期间连续性的关键利益相关者是现场设施经理,更广泛地说,是设施团队,包括电工、机械工程师以及供暖、通风和空调 (HVAC) 专业人员。

他说:“该团队需要确保关键系统正常运行,并且在出现问题时现场能提供不间断电源。”

他警告说,功率的轻微降低可能会损坏泵、风扇和压缩机等部件,影响系统冷却和空调空气。

此外,数据中心冷却拥有庞大的控制系统网络,需要稳定的电流来操作各个组件,以确保经过调节的空气以最佳方式流入数据中心空间。

数据中心运营商和支持这些设施的机械团队针对一系列自然灾害和资源限制制定了计划,SSIA 社区董事会成员史密斯表示。

他补充说,数据中心运营商随后与客户密切合作,遵守已发布或协商的服务级别协议(SLA)。

他说:“如果资源或自然灾害需要关闭或限制某些服务,他们可能还会与客户制定应急计划。”

从他的角度来看,过去几年最关注的焦点是效率——尽可能高效地使用电力、冷却和水,并减少整个设施的浪费。

通过提高数据中心温度、改进监控解决方案和智能建筑管理系统以及配电和调节,这一目标已经实现。

越来越多的数据中心运营商正在实施液体冷却技术,以进一步提高设施效率,同时在许多情况下转向设施或 IT 设备级别的闭环“无水”冷却设计。

“所有这些都有助于数据中心变得更加高效,并且能够在日益严峻的条件下运行,”史密斯说。

总裁兼首席运营官表示,节能基础设施和更高效的冷却设计(例如液体冷却)是目前正在考虑的两种技术。

“另一个有效但较少探索的高效数据中心电源管理策略是减少主动管理的数据量,”她说。

由于数据消耗了数据中心30%甚至更多的资源,而80%的数据是冷数据,因此高效的数据管理可以将数据中心的负担减轻三分之一,甚至不需要对基础设施进行任何重大改变。 。

“随着热浪频率的增加,加上高密度人工智能处理器的热量输出不断增加,问题在两个方面变得更加严重,”他说。

人工智能使挑战变得越来越复杂,但也提供了解决方案

人工智能的持续兴起将加剧挑战,但许多挑战也会导致数据中心在可接受的运行温度下运行的问题。

AI消耗大量电力,更多的AI处理会增加数据中心的热量输出和功耗,加剧这一问题。

“一方面,用于模型训练和推理的人工智能工作负载需要更密集的硬件配置,需要大量的计算能力和能源,而为人工智能模型和应用程序提供动力的服务器会产生大量热量,必须散发和冷却,”史密斯说。

该领域已经发生了许多机架级创新,以提高冷却和电源效率,包括从风冷数据中心转向机架级液体和浸入式冷却,以及从 12V 转向 48V 以实现更高效的冷却。

表示,训练这些模型时发生的复杂计算需要更多资源密集型硬件,从而导致整体模型能力增加,以确保最佳运行。

“资源利用率和发电量的增加意味着数据中心内会产生更多的热量,这给冷却系统带来了压力,”他解释道。

此外,人工智能算法和模型的动态特性可能会导致电力需求和热量产生激增,而传统冷却系统可能难以跟上。

“考虑到过去一年为了满足对大型语言模型的强劲需求而在集中式数据中心建设上投入巨资,我预计网格的压力将进一步增加,”他说。

史密斯指出,虽然人工智能工作负载的增加给数据中心保持最佳运行温度带来了更多挑战,但它也可以成为问题的解决方案,包括使用人工智能来优化热性能管理,例如液体冷却。或气流需求,以及冷却系统的预测性维护。

他说:“随着热浪的加剧,人工智能还可以用于为实时天气和长期环境模式系统提供动力,使能源消耗和冷却系统能够根据外部因素自动调整。”

0 阅读:0