算力大模型持续火热，谁来为智算中心降降温？

近两年以大模型为代表的人工智能非常火，引发了大模型投资热，企业纷纷投入巨资开始训练大模型和部署各种人工智能应用。然而，不少企业突然发现电出问题了，要么数据中心的电力不够，要么机房温度降不下来，或者用电成本太高账单吓人，严重的甚至直接影响数据中心正常运营，波及企业的数字化化转型战略的落实。为了破解这些难题，不少企业走上绿色数据中心的构建之路。

大模型的背后是对电力的高消耗

2022年年底，ChatGPT一炮走红。ChatGPT表现出来的强大的内容生成能力让人惊讶，但很多人不了解的是，这些能力是建立在大量数据的训练之上，需要消耗大量的电力。

1750亿参数的GPT-3在训练阶段的耗电量高达1287兆瓦时。随着模型参数的不断增加以及模型从单模态向多模态发展，耗电量还将进一步提升。

大模型不只是在训练阶段费电，推理阶段同样也相当费电。根据专家对ChatGPT的研究，每当ChatGPT试图响应一次提问，它需要消耗2.9瓦时的电量。ChatGPT平均每天需要处理约2亿个来自用户的对话请求，这意味着它单日消耗的电量就要超过564兆瓦时，相当于1.7万个美国家庭一天的用电量。

ChatGPT是通用大模型的一个代表，其他大模型的耗电情况大体类似。随着大模型的流行，AI工作负载功耗占比正在快速提升。AI类工作负载功耗2023 年只占到8%，而到2028年会占15%-20%，总能耗预计会到15GW，相当于十三峡水电站的总装机容量22.5GW的70%。

通用大模型之所以费电，一个重要原因是它的训练和推理都需要大量GPU，今天GPU集群越来越大，万卡甚至10万卡也不稀奇，而GPU随着性能的不断提升功耗会不断上升，正在从目前的350瓦向1000瓦迈进，英伟达新发布的最新GPU GB200已经突破了1000瓦。当然，不只是GPU，CPU的功耗也在上升，正在突破500瓦。

CPU、GPU功耗的不断上升迫使企业越来越关注AI架构的优化，要把数千甚至上万张CPU、GPU卡互联，让它们高效访问所需要的数据，完成工作，对系统架构设计提出了很高的要求。