今天的数据中心行业与十年前有很大不同。这主要是由于过去几年的许多现实因素造成的:人工智能技术的大规模扩散、摩尔定律的放缓以及令人头疼的可持续性问题。 。
预计随着运营商对供电、制冷、管理、高密度、监管压力等问题的重视和规划,整个数据中心行业将在2024年迎来又一波重大变革。
虽然没有排在榜首,但考虑到大家都在关注AI问题,我们就从这里入手。在过去的12个月里,主要云服务提供商和超大规模基础设施运营商部署了相当多的GPU集群。预计 仅在 2023 年就将售出 60 万台 H100 台(我们推测可能接近 71 万台)。到2024年底,这家芯片制造巨头的GPU出货量预计将进一步增至150万至200万片。
别担心,AI基础设施的建设并不像大家想象的那么麻烦。
然而,也必须承认,面对如此大规模的部署以及对生成式人工智能支持技术看似永无休止的市场需求,数据中心行业已经并且必须做好应对需求激增的准备,特别是支持大规模GPU和其他加速器部署所带来的散热和功耗问题。
虽然 HPC 专业人士对不断提高的加速器性能和功率密度并不陌生,但与典型的双路系统相比,新设施显然将这两个指标都提升到了新的水平。
的H100和即将发布的H200的额定功率均超过700瓦,而这只是单个芯片的功耗。一个AI集群通常安装4到8个GPU,这使得热设计功耗直接提高到千瓦级。
不过,预计AI基础设施浪潮实际上对大多数运营商的影响有限。这主要是因为芯片产能仍不能满足需求,能够掌握庞大部署资源的企业相对较少。
无论如何,大规模部署此类系统的数据中心将不可避免地面临供电和热管理的双重挑战。幸运的是,有多种方法可以解决这些具体问题,其中最简单的一种是将系统分布在更大的占地面积上,这也是对设施环境造成最小改变的解决方案。
例如,假设现有基础设施可以容纳每个机架 25 千瓦的电力和相应的热负荷,运营商可能会尝试将 DGX 节点分布在两倍数量的机架上。这当然会导致机柜中出现大量空闲空间,但对于某些工作负载,只要空间成本不是太高,这就是最简单且最不困难的选择。
但从该公司首席技术官Chris Sharp之前分享的内容来看,虽然分布式系统确实解决了发热和电力传输的问题,但它并不适合基于专用互连结构的训练工作负载。比如覆盖范围有限,最好配合更密集的部署方案。
直接液冷展现优势
第二种选择是将设施升级为液体冷却,特别是直接液体冷却(DLC)设计。分析师预测,面对芯片发热、系统密度和可持续性的巨大压力,运营商将在2024年更广泛地部署直接液冷解决方案,以短期安装便利性换取更强的硬件性能。表现。
直接液体冷却通常比传统空气冷却更有效,因为液体是更好的热导体,而且该技术还很大程度上消除了对机柜风扇的需求。据我们了解,采用液冷技术最多可降低系统功耗20%。不过,也有人提到,由于液冷功耗会与整体IT系统功耗混合在一起,具体量化将极其困难。
而释放直接液冷的节能潜力绝非说说而已。据解释,许多设施运营商可能更愿意首先将冷却剂保持在较低温度,以提高基础设施的冷却效果。据我们所知,这可以减少基础设施设计负担,并有助于延长IT硬件的使用寿命。然而,从能源效率的角度来看,这种方法不如使用较高温度的室温冷却剂,因为它需要额外的功耗来主动降低冷却剂温度。
必须承认,低温直接液冷确实具有性能优势。较低的流体温度意味着CPU和加速器将始终保持较低的工作温度,从而使它们能够在更高的超频水平(以及相应的工作功率)下运行更长时间。
真正令人担忧的是,采用直接液体冷却系统所节省的成本将被更高的系统负载所抵消,从而导致改造缺乏回报。
实现可持续发展需要不同的方法
还有人指出,直接液冷很可能无助于实现可持续发展目标,而迫在眉睫的监管要求让运营商别无选择。
原则上,每个主要云提供商和超大规模数据中心运营商在过去几年中都做出了类似的净零可持续发展承诺。至于微软和谷歌等科技巨头,距离第一个重大里程碑只有几年的时间。
预计,数据中心运营商如果真想兑现承诺,将面临一段艰难时期。由于数据中心部署的地区不一定有丰富的可再生能源供应,风能、太阳能、潮汐能等新能源类型的实施往往无济于事。
不仅如此,世界各国政府一直在敦促服务器场提高其功耗和碳足迹的透明度。
去年9月通过的欧盟企业可持续发展报告指令,以及加州气候企业数据责任法案等法规,很快将要求更多企业报告碳排放和业务运营造成的气候相关风险。
报道称,美国证券交易委员会(SEC)也开始关注这一问题,并要求大型上市公司在季报中披露部分排放数据。
毫无疑问,其中最严格的监管要求是去年秋天发布的欧盟能源效率指令。本文件规定了数据中心以及其他 IT 和网络运营商的报告要求。然而,应该强调的是,该指令旨在获取有关使用模式的数据,并不临时对数据中心设施的运营方式施加规范性限制。
尽管这些监管要求是善意的,但调查发现,参与调查的数据中心运营商中只有不到一半已经开始真正跟踪碳排放等指标。
数据中心智能化升级势在必行
多年来,人们一直呼吁在数据中心领域广泛引入数据驱动的自动化解决方案。分析人士认为,2024年可能是全面实现这一目标的时间点。
问题的根源在于,尽管数据中心内部的硬件设备发生了根本性的变化,但管理工具的发展却停滞不前。大多数建筑管理系统(BMS)和数据中心基础设施管理(DCIM)软件仍然提供相对有限的自动化分析功能。
可以想象,通过在管理层面进行适度改进,运营商可以显着提高能源效率,同时降低后续监管和排放报告要求的实施门槛。自动化此类系统操作的一个典型用例是在低需求期间调整环境系统,以避免浪费电力冷却根本不高强度运行的空闲系统。
人们还认为,更先进的自动化技术将基于从设施数据集训练的人工智能模型,以预测的方式灵活调整数据中心运营模型。
将这种类似 AIOps 的功能应用到整个数据中心当然有很多好处,但分析师对现有 DCIM 软件供应商的适应能力持悲观态度。相反,分析师预计这些功能将是新一代初创公司首先开发的功能。我们目前正在关注六家处于不同发展阶段的此类厂商,相信他们的研发成果有望解决基础设施的智能化运营问题。
虽然报告没有具体指出它的名称,但我们怀疑其中之一很可能是氧化物。该公司由前 Sun 软件工程师 Bryan 和总裁 Steve Tuck 共同创立。它专注于机架级计算场景,甚至内部开发了基板管理控制器(BMC),以避免使用其他行业标准控制器。
超大型设施园区或成主流
一系列现实趋势,特别是为应对人工智能需求持续增长而提高的算力密度,正在推动运营商投资建立由多个数据机房组成的超大规模服务器园区。
据介绍,这些园区可能占地数百万平方米,旨在满足多个租户的电力和连接需求,并且往往从设计之初就强调使用更多清洁能源。
此类新园区的核心特点是实现千兆瓦级容量。作为设施规划的一个关键词,这些新园区在初始运营期间肯定不会达到这样的功率水平,但为了避免在生命周期中遇到扩展瓶颈,它们很可能会预留容量空间来容纳后续设施。
去年,我们还看到了许多更激进的探索案例,包括利用氢燃料电池或小型模块化反应堆等新能源来提供数千兆瓦的电力。
而除了共享电力设施的优势之外,竞争的数据中心运营商也可能因为另一个原因而选择彼此合作,那就是设施之间的低延迟通信。
这些数据中心(未来可能更好地称为数据城市)的拟议趋势将有助于降低托管和连接成本、提高设施弹性并提高运营可持续性。
这些预测是否会实现还有待观察,但可以肯定的是,数据中心将继续变得更大、更多、更耗电。
鱼云提供全球范围的云服务器和物理服务器租赁服务,具备强大的DDoS防御功能,确保您业务安全稳定运行,同时提供灵活定制和专业支持以满足多样化需求。