如果您正在考虑升级您的 x86 服务器机群 - 事实上许多企业、超大规模基础设施运营商和云服务提供商目前都在参与讨论 - 好消息是英特尔和 AMD 都推出了他们有史以来第一个最强大的串行计算引擎。
对于仍然占据x86服务器CPU市场出货量三分之二的Intel来说,尽管其制程技术略显不足,但几乎与AMD打成平手,这简直令人惊叹。 AMD这边,其刚刚发布的“都灵”Zen 5和Zen 5c拥有显着的性能和价格优势,这意味着尽管Intel一直在努力优化自家的x86服务器CPU,但AMD仍在蚕食市场份额。继续。也就是说,在不久的将来,随着双方的制程技术和性能逐渐趋同,或许两家厂商中的一半会迅速行动起来,开启新一轮的价格战。
但这个未来显然还没有到来。目前,各大厂商都在开发自己的Arm架构服务器CPU解决方案,而Intel和AMD仍在积极竞争,就好像Arm浪潮根本没有发生过一样。毕竟,如果承认Arm替代品的存在,就意味着x86芯片的价格也必须相应降低,这相当于将大量收入和相当一部分利润留给了谈判对手,而两者x86厂商显然无法接受这样的结果。所以综上所述,x86服务器CPU已经成为新的传统技术层,各大公司制造的Arm芯片正在重塑成本效益曲线。有一天,也许 RISC-V 也会以同样的方式彻底改变 Arm 架构。
一如既往,本文将从处理器的基本信息、速度和价格开始带您了解都灵系列CPU,然后再深入讨论架构。最后的结束部分是从AMD的角度来分析当前的竞争形势。
AMD 在其 Epyc 处理器的开发历程中已经取得了长足的进步,坦率地说,对于一家在 2010 年代放弃数据中心市场的制造商来说,要从设计失败中恢复过来并重新建立市场信誉将非常困难。别无选择。当时Intel推出了振兴的64位Xeon产品线,它从AMD身上汲取了很多灵感,并且做得更好。快进到现在,轮到英特尔步履蹒跚了,在制程技术方面远远落后于AMD的代工合作伙伴台积电。这种推迟转向更先进制程技术的行为无疑给英特尔的服务器CPU设计者带来了巨大的痛苦。 2019年以来,英特尔已经无法凭借“设计优势”引领市场竞争,只能依靠“供应优势”勉强抵抗。时至今日,这家芯片巨头的产品仍然达不到AMD的技术水平。
在过去几代Epyc产品中,芯片架构已经发展和完善到单个Epyc CPU由9个、13个甚至18个小芯片组成。这些小芯片相互连接并嵌入基板中,因此目视观察和软件没有任何区别。从调用的角度来看,它就像以前的单片CPU。因此,Epyc芯片的市场份额越来越高,希望在同一个设备中塞入尽可能多的核心,以获得更高的每瓦每单位的性价比(在2000年代初期,我们称这个指标为SWaP(代表空间、瓦特和性能)在超大规模基础设施运营商和云服务社区中特别受欢迎。
随着Epyc芯片设计的完善,人们对AMD的偏见逐渐消除。如今Epyc产品线已经发展到了一个新的成熟阶段,没有人会质疑AMD在服务器CPU领域稳固的市场地位,也没有人会质疑它是否能为单路和双路服务器创造出色的处理能力。设备。 AMD的产品完全可以与任何厂商生产的产品相媲美,整个市场上没有它需要仰望的对手。
但如前所述,我们认为在超大规模基础设施运营商和云服务提供商中,x86处理器的价格永远会高于自研Arm服务器芯片的价格。这是因为英特尔和AMD等制造商必须依靠产品价格来抵消所有管理成本。换句话说,任何不属于超大规模基础设施运营商和云服务提供商的客户都将不可避免地需要为服务器计算支付高昂的价格。这是这个行业的本质,根本不可能消除。
世界上大多数地区仍在运行难以移植到 Arm 的 x86 应用程序,因此情况并不紧急。但大多数新应用程序已经开始为 Linux 编写,而不是过去。此类软件可以相对容易地移植到Arm架构上,因此处理器制造商必须保持警惕。事实上,这种保持焦虑和紧张感的习惯似乎是一种更健康的商业态度。
鉴于x86服务器市场的现状,我们很好奇AMD的市场份额能上升到什么程度。
这在很大程度上取决于超大规模基础设施运营商和云服务提供商的行动速度。毕竟,这些客户占据了服务器CPU出货量的一半以上。如果他们能够用Arm芯片满足一半的CPU需求,而另一半继续使用x86来支持传统的x86应用(从长远来看,就是这样),这意味着四分之三的CPU市场仍然属于x86,其业务量也是相当巨大的。但是,如果超大规模基础设施运营商和云服务提供商最终占服务器 CPU 总出货量的四分之三,并且仅在必要时购买额外的 x86 处理器来支持客户希望在 x86 上运行的 Linux 工作负载子集,该怎么办?负载(这样的用例也有其合理性),那么Intel和AMD将不可避免地面临巨大的压力。其市场份额可能会根据两家制造商发起价格战的强度而波动。这样的预测也是假设两家厂商的设计和工艺技术水平相同,但从英特尔这边目前的情况来看,这个推论很可能并不成立。
Turin Zen 5和Zen 5c核心迎来了大量的微架构变化。与Zen 4和Zen 4c核心相比,新一代核心的每时钟整数指令数(IPC)增加了17%,浮点IPC增加了37%。
注意:在上表中,当我们以运行频率为 2.8 GHz 的四核“”2387 处理器为基准计算相对性能时,仅比较整数工作负载;但在某些情况下我们还会进一步比较并添加浮点运算的相对性能。
这种整数IPC在核心设计上的改进与过去的趋势大致一致——“罗马”Epyc 7002系列比“”Epyc 8001系列好15%; “Mila”Epyc 7003 系列比“Rome”系列性能提升 19%;并且“Genoa”Epyc 9004系列比“Mila”系列高出14%。随着制程技术的缩小,每个核心对应的L3缓存(“c”核心的L3缓存为2MB,只有普通核心4MBL3缓存的一半)。这样的芯片功能和布局使得AMD能够继续扩展SKU堆栈。此次AMD公布的Turin技术堆栈覆盖范围更广,共包括27种不同的芯片;相比之下,英特尔的性能P核和“高能效E核至强6系列”目前只有十多个SKU。
这显然已经不再是我们熟悉的英特尔了。我们只能感叹时代变了。英特尔计划在2025年第一季度为He家族带来更多低端SKU,而AMD可能会为Turin和3D V-Cache Turin-X芯片系列推出一些通信和边缘计算变体,因此届时两大阵营阵容可能会更加平衡。
Turin 芯片代表了基于 Genoa 的演变,因此这两个芯片必须能够插入同一个 SP5 服务器插槽。任何颠覆性升级通常都需要新的插槽,而服务器购买者和服务器设计者都希望插槽能够支持至少两代产品。
在Turin芯片方面,AMD采用台积电的3纳米工艺技术核心,I/O和内存芯片则采用4纳米工艺技术。与Genoa核心以及Genoa I/O和内存所采用的5纳米工艺技术相比,该芯片的6纳米工艺技术取得了长足的进步。
下表显示了使用标准 Zen 核心(而不是“c”变体)的第五代产品的具体规格变化:
常规 Turin 产品中的核心复合芯片 (CCD) 有 8 个核心,具有 32 MB 二级缓存。这些核心共享 32 MB 缓存,并延续 Milan 和 Genoa 芯片的设计。随着核心工艺技术的缩小,从米兰的7nm到热那亚的5nm再到都灵的3nm,AMD能够将16个核心加上I/O芯片塞进一个封装中,因此可以将核心数量从米兰的64个增加到都灵的128个。
Turin的L3缓存容量按比例增加到512MB,并且处理器和Genoa一样拥有十几个DDR5内存通道。然而,Turin 内存的运行频率为 6.4 GHz,速度提高了 50%,因此每个插槽的内存带宽增加了 50%。这也恰好与新处理器的核心数量相比 Genoa 增加 50% 相匹配。 Genoa 和 Turin 设计均使用 128 或 160 PCI-5.0 I/O 通道来适应 SP5 插槽的固有特性。
此次发布的两款Turin CPU变体不仅核心数量不同,还配备了不同的CCD和相应的排列方式,旨在针对数据中心场景中的不同工作负载。
基于 Zen 5 CCD 的所谓“垂直可扩展”Turin 芯片(如上左图)有 16 个 CCD,每个 CCD 对应 8 个 Zen 5 核心,总共 128 个核心和 256 个线程。 “横向扩展”的 Turin 芯片(类似于上一代“”系列对应的标准 Genoa 处理器)只有十几个 Zen 5c CCD,但得益于去年每个核心增加了 2 MB 的 L2 缓存以及重新设计的 CCD因此,每个 Zen 5c CCD 对应 16 个核心,远多于 Zen 5 CCD 的 8 个核心。 Zen 5和Zen 5c核心的布局不同,但功能是相同的。这与Intel在Xeon和中兴的设计做法形成了鲜明的对比:前者只有一个通用的Xeon核心,即性能P核心;后者采用完全不同的Atom衍生核心,称为能效E核心。双方哪种设计更能赢得市场青睐,还需要时间来检验。
与之前的 Epyc CPU 系列一样,AMD 会首先打造适用于多路服务器的标准 Turin 处理器,然后针对单路服务器设计特殊版本(即 P 版本)。这些版本的 NUMA 电路经过压缩,可以合理降低价格。 Turin系列处理器还有F变体,旨在满足高性能工作负载的需求(F代表频率增强)。我们怀疑未来可能还会出现 X 版本变体——可能是 2025 年第一季度,届时英特尔将发布新一波 CPU 公告——这些变体将拥有更大的 L3 缓存,以增强高性能计算以及某些缓存敏感型 AI 的部分性能工作负载。
废话不多说,我们来看看目前为止都灵家族的Zen 5 SKU阵容:
下图显示了都灵家族Zen 5c SKU阵容。这些变体具有更高的核心数量、更大的吞吐量和更具竞争力的性价比水平:
这里需要注意的是,与 2009 年 4 月(经济大衰退期间)推出的 45nm 工艺相比,AMD 的进步令人印象深刻。
2387是“”系列中定位合理的中端产品,但只对应四个SKU。该芯片配备4“”核心,运行频率为2.8 GHz,不支持超频,搭配6 MB L3缓存,全部在紧凑的75瓦热功耗设计之内。如果按照服务器行业标准的 1,000 个托盘规模购买,每个芯片的售价为 873 美元(请注意,873 美元是 CPU 价格,而不是托盘价格)。
为了计算相对性能,我们将芯片的时钟速率乘以核心数量,再乘以与“”核心相比的累积 IPC 改进。
”“Epyc 7601处理器拥有32个核心,运行频率为2.2GHz,性能提升10.37倍。以每台 4,200 美元的价格计算,相同性能的售价为 405 美元。倒数第二个处理器是“Rome”Epyc 7742处理器,它比Epyc 7H12更加标准化,主要针对高性能计算工作负载。这款运行频率为 2.25 GHz 的 64 核芯片的相对性能跃升至 24.40,而每单位性能的成本则降至 285 美元。接下来是 64 核“Milan”Epyc 7763 芯片,主频为 2.45 GHz。其比较性能得分为31.61。性能提升主要源于微架构改进和时钟频率增强,与核心扩展无关。 “Milan”芯片的成本效益稍低,每单位性能售价为 250 美元。然后是 96 核 2.4 GHz Epyc 9654 处理器,在我们的相对性能计上得分为 52.94,成本为 11,805 美元,相当于每单位性能 223 美元。
这里需要强调的是,提高性能比优化成本效益更容易。而且由于热限制,通过增加内核数量来优化成本性能比通过提高时钟速率来增强性能更容易。
现在来到都灵,这款旗舰产品当前的标准 Epyc 9755 型号拥有 128 个核心,运行频率为 2.7 GHz,相对性能为 92.93,售价为 12,984 美元。这相当于每单位性能仅需140美元,这表明AMD在性价比方面取得了巨大进步。
更具体地说,与“”2387相比,都灵霄龙9755的性能提升至92.93倍,价格提升至14.9倍,功耗提升至6.7倍,相当于在短短15年多的时间内提升了性价比。至 6.2 倍。
Turin的Zen 5c版本进一步提升了性能和性价比。 Epyc 9965 有 192 个核心,运行频率为 2.25 GHz,相对性能为 116.17,成本为 14,813 美元,相当于每单位性能 128 美元。与Epyc 9755相比,其峰值理论整数吞吐量性能高出25%,性价比高出8.7%。
当然,不要急于认为Zen 5c版本比Zen 5版本更好。选择取决于工作负载对缓存的敏感程度。您还必须仔细查看完整的 SKU 堆栈,并考虑如何将工作负载与适当的 SKU 相匹配。如果你更加注重高串行性能,你必须花越来越多的钱。上表已经清楚地表达了这一点。如果你想要更高的吞吐量,你还必须谈论成本。但这显然是AMD在芯片产能分配方面必须做出的权衡,这是可以理解的,也是非常公平的。
在这里我们不会直接将AMD的Turin 5和Turin 5c与Intel的进行比较。因为我们认为,英特尔产品线内的相对比较是不言而喻的。
首先,也许也是最重要的一点,更高核心数量的英特尔型号虽然看似占主导地位,但其性能明显低于该系列芯片,而且价格更便宜、更具成本效益。更准确地说,144核至强6780E的吞吐量比128核至强6980P低24%,但同型号前者性价比高16%。相比之下,我们在上一篇文章中提到过,拥有 192 个核心的 Turin 5c Epyc 9965 实际上可以比 128 核心的 Turin 5 Epyc 9755 多完成 25% 的工作,而单位工作的成本则低了 8.7%。
这显然是两家厂商最大的战略差异。
其次,我们来看看Intel在2009年到2024年同期的相对性能提升情况。对于Intel Xeon处理器家族来说,我们作为相对性能衡量试金石的服务器CPU是其3月份推出的45nm工艺“Xeon E5540” 2009年,也是大衰退的产物。这是一款运行频率为 2.53 GHz 的四核处理器,具有 8 MB 三级缓存,运行功耗为 80 瓦,在 1,000 个托盘的采购规模下,每颗芯片的价格为 744 美元。与这款经典的至强E5540相比,英特尔顶级至强6 6980P的性能提升至62倍,功耗提升至6.25倍,达到500瓦,价格则提升至23.9倍,达到17800美元,性价比很高——有效增加到可怜的2.6倍。我们再回顾一下。 AMD在普通版都灵处理器上实现了性能提升92.93倍、功耗提升6.7倍、价格提升14.9倍,最终性价比提升6.25倍。
在后续报道中,我们还将带来都灵架构的深度剖析和竞争态势分析,敬请期待!
原文链接: