AMDZen5TechDay大会速览——超强的第三代锐龙AINPU

微型计算机 2024-07-16 10:05:26

除了CPU和GPU架构、桌面平台和笔记本平台处理器的更新以外,作为这个时代最具变革性的技术之一,第三代AMD 锐龙AI本身,当然也是这次大会的主角。

AI工作负载的指数级增长和专业化需要新的计算架构,从图上可以看到,从AI处理效率和AI工作负载的差异化来看,CPU、GPU和NPU所擅长的领域各不相同。

为什么NPU是AI PC必须有的功能呢?首先,模型大小和多样性正在不断增长,并越来越成为操作系统不可或缺的一部分。从LLM大语言模型到Stable Diffusion再到实时的语音和视频,无论规模和运行的持续性,都各不相同。增强AI能效比以往任何时候都更重要,而NPU的每瓦性能可以做到CPU的35倍!

作为最早具备内建NPU的x86处理器厂商,同时也是率先通过NPU来驱动Windows 11 Studio效果的厂商,AMD已经与世界上绝大多数主流AI生态伙伴一起,为超过100款应用提供AI加持的性能体验。

实际上,第三代AMD 锐龙AI本身的体验也是由Zen 5架构的CPU、RDNA 3.5架构的GPU以及XDNA 2架构的NPU三者来共同组成。

2024年,AMD会有超过150家AI赋能的ISV。

AMD 锐龙AI具备自适应 AI 架构,在AMD产品组合中集成可扩展的AI引擎,和传统的多核处理器相比,XDNA架构的结构是一个矩阵,并且直接连接片上内存,具有更灵活的计算适应性和存储层次结构。

这是一种平铺数据流架构,可以通过编程互连也可以灵活分区。它能通过软件管理内存,不会出现缓存未命中的情况,具备确定性的性能。既可以降低内存带宽占用,又可以实现资源隔离。可以根据实时的工作任务用软件进行空间重构,给不同的任务即时分配不同的核心。

和上一代XDNA架构相比,XDNA 2的AI引擎模块从20个增长到32个,由于每个模块具备两倍的MACs,1.6倍的片上内存,同时支持Block Floating Point块状计算格式和增强的非线性支持,它的算力从之前的10 TOPS暴涨到50 TOPS!

AMD XDNA 2架构最多可以实现8个并发空间流,能够更好地进行多任务处理,同时还有基于列的电源门控,和锐龙7040系列相比,可以实现两倍的能效。

AMD在这里对Block Floating Point格式提供了支持。简单的说,这个格式既有接近8bit整数运算的高效性能,又有很接近16bit浮点运算的精确性。

这让全新的XDNA 2 NPU在第三代锐龙AI软件堆栈且非量化的情况下可以大幅领先竞争对手。注意,对比的英特尔NPU是代号“Luna Lake”的全新一代,应该是根据公开数据来判断的,这个表格的数据坐标轴比例设定感觉很有趣。

在性能表现、存储大小以及准确性方面,第三代AMD 锐龙AI综合性能更好。

在Stable Diffusion XL Turbo版本上,采用Block FP16数据类型的第三代锐龙AI NPU实现了超快的图片生成。

基于Llama 2 7B的场景中,可以用NPU来训练大模型,快速升级其指定的信息类别,获得最新答案。

目前AMD 锐龙AI的软件生态也十分强大,主流合作伙伴都在其中。

统一的AI软件堆栈,让ISV可以轻松运用锐龙AI的APU(CPU+GPU+NPU),获得更好的AI体验。

简单说就是,AMD XDNA 2架构的NPU是目前PC AI技术中的领导者!可以让ISV提供更好的AI PC体验!并且已经连续多代成为AI PC的真正领导者!

0 阅读:39