苏姿丰:AMD有望在2027年之前将能效提高100倍

袁遗说科技 2024-05-25 05:52:28

本文由半导体产业纵横(ID:ICVIEWS)编译自tomshardware

追求更少的能耗,更高的性能。

AMD 首席执行官苏姿丰出席了 imec 的 ITF World 2024 大会,并接受了imec 创新和行业领导力创新奖,加入了 Gordon Moore、Morris Chang 和 Bill Gates 等其他获奖者的行列。在接受该奖项后,苏姿丰开始了她的演讲,介绍了AMD为实现公司的30x25目标所采取的步骤,该目标旨在到2025年将计算节点的能效提高30倍。苏姿丰宣布,AMD不仅有望实现这一目标,而且现在还看到了2026~2027年实现100倍以上改进的途径。

由于 ChatGPT 等生成式 AI LLM 的爆炸式增长,对 AI 电源使用的担忧已成为人们关注的焦点,但 AMD 早在 2021 年就预见到了 AI 对于能耗的需求非常高。当时,AMD开始致力于提高数据中心计算节点能效的30x25目标,特别是将AI和HPC功耗视为一个迫在眉睫的问题。AMD在2014年就设定了第一个能源目标,其首个25x20目标,即到2020年将消费类处理器的能效提高25倍。

这个问题现在已经摆在了最前面。随着全球最大的公司争夺人工智能的霸主地位,生成式人工智能正在推动数据中心的快速扩张,但公共电网并没有为突然激增的耗电数据中心做好准备,这使得电力成为新的限制因素。由于电网容量、基础设施和环境问题限制了可用于新数据中心和扩展数据中心的容量,因此数据中心的可用电量受到硬性限制。事实上,许多新的数据中心正在发电厂旁边建造,以确保电力供应,而压倒性的需求甚至重新点燃了对核小型模块反应堆(SMR)的推动,以供应各个数据中心。

随着训练模型所需的计算量的增加,这个问题只会加剧。苏姿丰指出,第一个图像和语音识别AI模型的规模过去每两年翻一番,这与过去十年计算能力的进步速度基本一致。然而,生成式 AI 模型的规模现在正以每年 20 倍的速度增长,超过了计算和内存进步的步伐。苏姿丰 表示,虽然当今最大的模型是在数以万计的 GPU 上训练的,消耗高达数万兆瓦时,但快速扩展的模型大小可能很快需要多达数十万个 GPU 进行训练,可能需要几千兆瓦的功率来训练单个模型。这显然是站不住脚的。

AMD拥有多管齐下的提高能效的战略,包括广泛的方法,从其芯片架构和先进封装策略扩展到AI特定的架构、系统和数据中心级调优以及软件和硬件协同设计计划。

当然,硅是基石。苏姿丰指出,3nm全栅极(GAA)晶体管是AMD在芯片路线图上的下一步,以提高电源效率和性能,同时继续关注先进的封装和互连,以实现更节能和更具成本效益的模块化设计。先进封装在扩展设计方面发挥着关键作用,以便在单个芯片封装的限制下产生更大的马力,AMD 采用 2.5D 和 3D 封装的混合,以最大限度地提高每平方毫米数据中心芯片的每瓦计算量。

由于距离较长,在服务器节点和服务器机架之间传输数据会消耗额外的功率,因此优化数据局部性可以节省大量功耗。AMD 的 MI300X 是制造越来越大的芯片封装所带来效率的一个很好的例子——该芯片拥有 1530 亿个晶体管,分布在 12 个小芯片上,搭配 24 个 HBM3 芯片,提供 192GB 的内存容量,所有这些都可以作为本地内存提供给 GPU。与封装内单元之间的功耗和性能优化的 infinity Fabric 互连相结合,极高的计算和内存密度使更多数据靠近处理内核,从而减少了传输数据所需的能量。

苏姿丰表示,虽然硬件优化很重要,但AMD在硬件和软件协同优化方面的工作也取得了令人印象深刻的成果。使用低精度的数值格式可以提高电源效率和性能,因此在特定的硬件加速下进行设计对于持续扩展非常重要。正如您在上面的幻灯片中看到的,转向 FP4 等低精度格式会大大增加每焦耳消耗能量的 FLOP——与 FP32 相比,FP8 的能效提高了 15 倍,而 FP4 的功率效率提高了约 30 倍。

精度越低会导致准确度越低,但苏姿丰强调,先进的量化技术有助于解决这个问题。事实上,即使是 MXFP6 也可以产生与 FP32 相似的精度,只有在 MXFP4 上才能看到一些不同型号的下降,而其型号仍然同样准确。提高低精度格式精度的工作仍在继续,因此我们甚至可以看到 MXFP4 在未来的更多型号中变得与 FP32 一样准确。

总体而言,苏姿丰表示,AMD在每个节点的能效方面已经超过了行业的进步速度,因为该公司仍在努力实现其30倍的能效改进。苏姿丰预计这种趋势将继续下去,她说:“根据我们今天所看到的,通过这种类型的创新,我们认为我们可以做得更好。到2026年和2027年,我们有望完成超过100倍的工作。在这个领域,我们可以做的还有很多很多。”

Imec的活动吸引了来自ASML、台积电、英特尔和SK海力士等多家半导体公司的演讲者,许多演讲者都赞同苏姿丰的观点,即数据中心功耗以及与之相关的环境后果正在成为首要问题。

苏姿丰指出,继续提高能效的步伐需要全行业的努力。“我们有机会通过将许多不同的能力和许多不同的专业知识结合在一起来推动这个生态系统。我认为这是下一代创新的关键。”

“我们都是某些领域的专家,但当我们将流程人员、封装人员、硬件设计师、架构师、软件模型和系统设计师聚集在一起时,我们可以获得真正弯曲未来创新曲线的整体设计能力,” 苏姿丰说。

*声明:本文系原作者创作。文章内容系其个人观点,我方转载仅为分享与讨论,不代表我方赞成或认同,如有异议,请联系后台。

0 阅读:16