铜进光退?微软疯狂囤货的AI芯片有何魅力

壹零社科技宅 2024-10-24 04:45:10

从“光进铜退”到“铜进光退”,顺序的差异让人们看到了AI芯片技术迭代的方向。

01

微软四季度疯狂购入AI芯片被曝光

日前,天风国际证券分析师郭明錤最新发布英伟达Blackwell GB200芯片的产业链订单信息显示,目前微软是全球最大的GB200客户,今年第四季度订单量激增3—4倍,订单量超过其他所有云服务商的总和。

郭明錤在新报告中表示,英伟达Blackwell 芯片的产能扩张预计在2024年第四季度初启动。考虑到良品率和测试效率,预计2024年第四季度的出货量将在15万到20万块之间,预计2025年第一季度出货量将显著增长200%到250%,达到50万到55万块。

这意味着,英伟达可能仅需几个季度就能实现百万台的销量目标。英伟达创始人兼CEO黄仁勋在此前的采访中表示,公司即将推出的Blackwell芯片已全面投产、需求“疯狂”。

目前,微软是采购Blackwell GB200最为积极的客户。除了原定用于测试的2024年第四季度GB200 NVL36订单外,微软最近计划在英伟达DGX GB200 NVL72(也称为参考设计)进入大规模生产(2025年第二季度中期)之前,获得定制的GB200 NVL72单元。

微软在2024年第四季度的Blackwell GB200订单量已从之前的300—500个机柜(主要为NVL36)激增至约1400—1500个机柜,其中约70%为NVL72,最高增幅达400%。后续订单将主要集中在NVL72。

而微软之所以如此大手笔采购Blackwell GB200芯片,同当下大势所趋的集群算力发展有很大关系。

集群算力是指通过将一组松散集成的计算机软件或硬件连接起来,形成一个高度协作的计算系统,以完成复杂的计算任务。这种系统中的单个计算机通常被称为节点,它们通过局域网或其他连接方式紧密协作,共同完成计算工作。在某种意义上,集群算力可以被视为一台超级计算机,因为它能够提供远超单个计算机的计算能力。

英伟达的NVL72 服务器就是集群算力的重要代表,作为英伟达的旗舰液冷机架级解决方案,NVL72 服务器具备130TB/s 的 NVLink 多节点全互联带宽。

NVL72 服务器将多个 GB200 驱动的系统整合到一个机架中,包含 18个计算节点,每个节点配备2块GB200主板,共计72个GPU芯片。GB200 NVL72引入了第五代 NVLink 技术,单个 NVLink域最多可连接 576个GPU,总带宽超过1 PB/s,快速内存容量超过 240 TB。每个 NVLink 交换机托盘提供 144 个100 GB的 NVLink端口,9台交换机能够完全连接72个 Blackwell GPU的 18 个NVLink端囗。

GB200 芯片与NVL72服务器互联节点示意图

与传统 A1服务器相比,NVL72 服务器在芯片密度方面有显著提升。如何实现低能耗和高效散热已成为全球服务器厂商关注的重点。除了服务器自带的液态冷却配件外,第五代 NVLink技术也备受关注,广泛认为它是英伟达实现低能耗解决方案的关键。

NVLink是一种专为连接 NVIDIA GPU 设计的高速互联技术。由于 GPU 间通信带宽通常超过数百 GB/S,传统 PCle 总线的数据传输速率容易成为瓶颈。NVLink 允许 GPU 间进行点对点通信,取代传统的 PCle点线,实现更高的带宽和更低的延迟,而这也成为“铜进光退”的关键。

GB200 NVL72 服务器正反两面示意图

GB200 NVL72 服务器的内部网络主要依赖电气信号背板和铜线组成的 NVLink 网络,而在外部扩展,特别是大规模 GPU卡片互联时,则需要2至3层的交换机网络和光通信方案。新架构将 NVSwitch 系统集成到服务器内部,无需光电信号转换,通过NVSwitch 机架和电缆盒实现内部连接。

电缆盒内含 5000 根 NVLink 铜缆,总长度超过 3219 米(2 英里)。服务器外部互联则沿用了前代 GH200 的组网架构,采用光模块-I/0 连接器形式,并进行了升级。外部连接包括从IB 交换机到计算托盘以及从 IB 交换机到 NVSwitch 交换托盘的两种形式。由于外部线缆较长,NVL72 服务器选择采用 ACC 电缆设计而非 DAC。

02

铜缆成短距高密通信“最优解”

铜互连指的是主要使用铜作为材料的电信号通信方式(因其导电导热性能好,可塑性强),因此其涵义其实包括了芯片内互联走线(在芯片制造时实现)、芯片间(chiplet)走线(通常在基板上完成)、模组间走线(在PCB 上完成)、PCB板间通信(一般通过背板、连接器或铜缆完成)以及机框之间通信(一般通过铜缆或光模块)。

在 224Gbps 速率下, cable(铜缆)是SERDESLR(米级)最建议的电信号通信方式。随传输速率增加,传统PCB 信号衰减程度快速提升,采用增加层数和更换新型材料则会使成本明显提升,因此 cable 传输代替 PCB 成为有效解决方案。

PCB 的高频衰减曲线较 cable 陡峭许多

AIScaleup 需要怎样的通信技术?综合考虑距离、功耗、密度、串扰、成本。Scaleup 指的是使用统-物理地址空间将多 GPU 组成一个“超级 GPU”节点,随着大模型参数的快速提升,扩大 Scaleup 域有助于张量并行效率更高,并且简化了 AI算法编程。

NVLINK 是英伟达 GPU 实现 Scaleup 的主要通信方式,其通过 NVLINK Switch 实现节点内高速交换。NVLINK Switch3最高连接8枚 GPU,而 NVLINK Switch4最多可扩展 576 个,GB200 NVL72、NVL36*2的 Scaleup 域为 72 个 GPU。

在8颗 GPU 互联时,NVLINK 主要通过 PCB 进行 intra-board 通信,距离通常在1米内;而 72 颗 GPU 互联达到了 intra-rack、相邻 rack 通信,距离通常在1米至5米,因此距离成为 GB200 选择铜缆互联的最主要因素。除此之外,与光通信(AOC、CPO)对比,根据 TheNextPlatform 报告,铜缆的 cost 成本仅为AOC 的十分之一,虽然 CPO 在功耗、密度、距离都更有潜在优势,但当前产业链还不成熟,其对客户机房改造、服务器设计等“潜在成本”是要高出不少的。

不同通信手段功耗、成本、密度、距离对比

再次回到GB200 芯片与 NVL72 服务器,GB200机柜 compute tray与Switchtray 之间的传输距离约为 0.5-1米,英伟达使用了定制化的线背板模组 cartridge 结合高密度背板连接器来实现背板的互联,较 PCB 可行度更高、较光模块成本更低。

而在 Switch tray 交换芯片到背板、前面板英伟达则使用了安费诺的 OverPass、Densiink 近芯片跳线方案,以避免 PCB 可能出现的高频信号串扰、信号衰减过快问题。在 NVL36 相邻机柜间,英伟达或选择有源铜缆 ACC 方案,较光模块成本更低、功耗更低。

除英伟达外,高速铜互联在 AI短距离场景已有成熟经验,doi0/谷歌等均使用定制铜缆或DAC&AEC作为短距互联方案。以谷歌为例,其 TPUV4 服务器设计 TPU 和 CPU 板卡是分开的,使用 PCIE 外部线进行连接而在 TPU 互联域,谷歌使用的是 3D torus 网络架构,每颗 TPUv4 具有6*50GB/SICI带宽,其中2条ICI链路在 tray 内通过 PCB 互联,3 条链路使用 400GDAC 铜缆在机柜内与其他 TPU tray 互联,剩余1条链路通过 400G FR4 光模块连接 OCS 光交换机。

Dojo training tile 之间通信采用定制连接器和组件实现每边 9TB/s 的高速率

特斯拉自研芯片 doio 机柜的设计则更加独树一帜,其基本芯片单元为 D1 芯片,25个 D1芯片组成一个 Training Tile,12 个Training Tile 组成一个服务器机柜,算力达 109PFlops。为实现 Training Tie 之间的高速互联,特斯拉定制了通信协议,每片 Tile 的每一边通过 10个 900GB/s 定制连接器和线缆组件实现 9TB/s的超大带宽。

03

国产厂商分兵突破专利壁垒

国内运营商、互联网厂商及华为对超节点、高密度的 AI 集群组网追求趋于一致,这与英伟达 GB200 NVL72 架构的设计理念相吻合,因此高速铜连接作为本次 GB200 机架的增量设计,亦有望在国内的 AI 智算中心建设中批量采用。

不过遗憾的是在高速铜缆领域,全球DAC前十强厂商占有大约 69%的市场份额,其中前九名厂商均来自海外,包括安费诺、莫仕、泰科、Juniper、Volex等,国内立讯列第十,这主要是安费诺、莫仕、泰科等头部企业,以往通过互授专利构筑壁垒,占据绝大部分市场。

根据中国国际工程咨询公司《重点电子元器件研究报告》(2020),安费诺、莫仕、泰科等海外公司利用领先的技术优势,在世界各地抢先注册专利,并通过成立专利授权战略联盟,构筑较强的专利壁垒,2020年三大巨头在高速连接器领域专利超过550项。

过去,安费诺等海外头部厂商凭借专利壁垒享有高速背板连接器领域较高的份额,在 56G/112G/224G 的研制量产节点分别是2014/2018/2022年左右,其中在56Gbps及以下的高速背板领域领先国内约5-7年.

国内市场的 AI 芯片性能对比

自2019年开始,华为、中兴开始扶持国内高速背板连接器厂商,华丰科技、庆虹电子等开始在112Gbps 的研制进度上跟上海外巨头的步伐,其中华丰科技在 2020 年完成 56Gbps 背板连接器客户认证;在 2023 年上半年完成 112Gbps的主要客户产品测试并将参与重点客户的下一代服务器;在 224Gbps 产品方面公司于 2022 年开始预研,已在 2023 年上半年达成样品试制合格。

目前,我国高速背板连接器厂商在近几年成功突破海外封锁,实现了国产替代,尤其是在 112Gbps 及以上的产品的研制中迎头赶上海外巨头,弱化了海外厂商的专利壁垒限制。

另一方面,鼎通科技、奕东电子等厂商通过为海外巨头做上游配套,以鼎通为例,鼎通通讯连接器组件产品下游直接客户为安费诺、莫仕等连接器模组制造商,其生产的组件经过客户集成其他功能后形成连接器模组,并最终配套供应通讯设备厂商,借助稳定的供应链关系,也有希望在专利壁垒下寻找到属于自己的成长空间。

而在整体集群算力上,华为 昇腾AI 生态加速国内铜连接市场国产替代进程。

华为昇腾计算系列产品生态

随着华为芯片、板卡、小站、服务器和集群等关键产品需求的增长,国内高速背板连接器行业有望与中国自主 AI 算力芯片共同推动行业快速发展。

0 阅读:0