人工智能(AI)有潜力超越过去一个世纪发生的所有变革性创新,它将在医疗保健、生产力、教育等领域为社会带来超乎我们想象的福利。为了运行这些复杂的人工智能工作负载,世界各地的数据中心所需的计算量需要呈指数级扩展。然而,这种对计算的永不满足的需求也暴露了一个严峻的挑战:数据中心需要大量的电力来驱动人工智能这一突破性技术。
当今的数据中心已经消耗了大量电力——全球每年需要 460 太瓦时 (TWh) 电力来支持它们,相当于整个德国的用电量。人工智能的兴起预计到 2030 年将使这个数字增加两倍,这意味着它将超过世界上人口最多的国家印度的总用电量。
未来的人工智能模型将继续变得更大、更智能,推动对更多计算能力的需求,同时也增加对电力的需求,成为良性循环的一部分。寻找降低这些大型数据中心电力需求的方法对于实现社会突破和兑现人工智能的承诺至关重要。
换句话说,人工智能的实现离不开电力,企业需要重新思考如何应对各方面的能源效率问题。
重新构想人工智能的未来——由 Arm 平台驱动的未来
Arm 的原始产品是为依靠电池运行的设备而设计的,并帮助彻底改变了手机。因此,深深植根于Arm的能效DNA可以让业界重新思考如何构建芯片来满足AI不断增长的需求。
在典型的服务器机架中,仅计算芯片就可以消耗超过 50% 的电力预算。工程团队正在寻找降低这一数字的方法,并且节省的每一瓦特都很重要。
正因为如此,全球最大的AI头部云服务商纷纷转向Arm技术来降低功耗。与业界其他产品相比,Arm最新的Arm CPU是云数据中心性能最高、最节能的处理器。为领先的云服务提供商提供定制芯片的灵活性,以优化其苛刻的工作负载,同时提供领先的性能和能源效率。节省的每一瓦特都可以用于支持更多的计算。这就是为什么 Web (AWS)、 和 (AMZN) 现在正在使用技术来处理其通用计算和基于 CPU 的 AI 推理和训练。平台正在成为云数据中心事实上的标准。
从近期行业发布的情况来看:
基于Arm架构的AWS:与同行业其他产品相比,其AI推理性能提升25%,Web应用提升30%,数据库提升40%,效率提升60% %。
基于Arm架构的Cloud Axion:与传统架构相比,性能和能效分别提升50%和60%,可为基于CPU的AI推理和训练、地球等服务提供支持。
基于Arm架构的Azure:性能比同类产品高40%,并提供Teams等服务支持。与 Maia 加速器的结合驱动 Azure 的端到端 AI 架构。
云端采用基于Arm架构的Altra Max:与传统同类产品相比,每台机架服务器性能提升2.5倍,能耗降低2.8倍。它用于生成人工智能推理模型,例如摘要和大型语言模型训练数据。标记化和批量推理用例。
显然,云中通用计算的性能和能效得到了极大的提升。此外,合作伙伴也在加速计算中发现了同样的好处。大规模AI训练需要独特的加速计算架构。例如,Grace平台(GB200)将GPU架构与基于Arm架构的Grace CPU结合在一起。这种基于Arm技术的计算架构实现了系统级设计优化,与大型语言模型的H100 GPU相比,可降低25倍的能耗,并将每个GPU的性能提高30倍。这些优化可以提供改变游戏规则的性能并节省能源,这一切都归功于芯片定制方面前所未有的灵活性。
随着基于Arm架构的部署不断扩大,这些企业将能够节省高达15%的数据中心总能耗。这些巨大的节省可用于在相同功率范围内驱动额外的人工智能操作,而不会增加能源负担。换句话说,这些节能相当于额外运行 20 亿次查询、驱动四分之一的每日网络搜索流量、照亮 20% 的美国家庭,或为哥斯达黎加这样大小的国家供电。这对改善能源消耗和环境可持续性产生了惊人的影响。
Arm CPU 正在从根本上改变人工智能并造福地球。 Arm架构是未来AI计算的基石。