联发科天玑9400测试与分析:刷纪录的291亿晶体管+GPU卫冕冠军

漫聊数码谈科技 2024-10-10 01:46:41

联发科天玑9400在24年10月9日正式发布。这是天玑旗舰SoC,首次提前到10月上旬发布。

发哥这一代CPU和GPU的攻略重点都是能效,这是天玑9400使用X925超大核+X4超大核+A720大核的核心原因。这一代的NPU新增大量端侧AI能力,甚至首发了端侧训练(LoRA训练)和图生视频能力。

天玑9400(MT6991)简要规格:

台积电N3E工艺,291亿晶体管

1颗3.62GHz的X925超大核 + 3颗3.3GHz的X4 超大核+ 4颗2.4GHz的A720

GPU是Immortalis-G925 MC12,AI处理器是NPU 890

首发支持10.7Gbps的LPDDR5x 10.7Gbps内存

将由10月14日发布的vivo X200系列首发,随后是OPPO Find X系列

旗舰SoC的简要规格表↑

架构与变动

最新的发哥之⭐:

台积电第三代4nm → 第二代3nm工艺(即和苹果A18/A18 Pro相同的N3E);

227亿晶体管 → 291亿晶体管(再次刷新纪录。虽然天玑9400是包含基带、ISP等部件的,但晶体管数目比苹果M4的280亿还多,就属实过分了);

【CPU】是第二代全大核架构。宣称单核性能相较上一代提升35%,多核性能提升28%,相较上一代同性能功耗节省40%:

首发X925架构的超大核,架构代号黑鹰,它就是之前以为会叫X5的超大核。3.62GHz,2MB L2缓存,IPC提升15%(在相同频率下,IPC越高,性能越强);

3颗X4超大核,3.3GHz,每颗都有1MB L2缓存;

4颗A720(也能叫做能效核),2.4GHz,每颗512KB L2缓存;

12MB的L3缓存+10MB的SLC系统缓存;

对比天玑9300,天玑9400各个核心的L2缓存都翻倍,L3缓存也涨了50%(天玑9300是8MB L3+10MB SLC)。大缓存,对于能效是利好,但就是费晶体管、费钱↓

天玑9400最高支持10.7Gbps的LPDDR5X内存(GPU和AI,都对内存带宽敏感)

三星在今年7月,用天玑9400完成10.7Gbps LPDDR5X内存的验证。对比8533Mbps的版本,新内存性能提升25%,同性能下的功耗降低25%;

而天玑9300顶配的LPDDR5T内存是9.6Gbps,后者由上一年的X100/X100 Pro的皇帝版首发。可能因为成本和量产的原因,后面的机型都是LPDDR5X内存。

【GPU】是首发的Immortalis-G925 MC12 1.612GHz,频率提升23%。

Arm之前表示G925是它们性能最高、效率最高的GPU,其着色器核心从G720的10到16个,提升到10到24个。

其频率更是一路飙升——天玑9200是Immortalis-G715MC11 981MHz → 天玑9300是Immortalis-G720 MC12 1.3GHz → 天玑9400的Immortalis-G925 MC12更是提到1.612GHz,比A18 Pro GPU的1.45GHz还高一截。

PS:10核心或以上叫Immortalis-G925,最高可选24核心(给笔记本设计的)。往下的型号叫Mali,分别是可选6-9核核心的Mali-G725、5核心及以下的Mali-G625。

天玑9400的官方提升数据

官方的天玑9400提升幅度:

【CPU】

CPU单核性能相较上一代提升35%,多核性能提升28%,同性能下功耗比前代降低40%;

安兔兔常温280万分,实验室环境超过300万分。

【GPU】

GPU峰值性能提升可达41%,GPU功耗降幅可达44%,光线追踪性能提升可达40%;

第三代光追(30fps→60fps→90fps),《暗区突围》的光追帧率提升50%的同时,功耗降低10%(注意看,是同时);

王者荣耀功耗降低35%,“米哈游三件套”60fps原神功耗降低23%,60fps星铁功耗降低29%,60fps绝区零功耗降低35%。

【基带与连接】

新的5G基带支持R17,5G功耗下降18%;

WiFi/蓝牙芯片从6nm升级到4nm工艺,日常WiFi功耗降低15%-50%;

宣称WiFi抗干扰能力提升80%,传输距离最高提升30米(等效于两层楼);

支持最高7.3Gbps的WiFi 7(当中包括2x2的2.4G频段 + 双5G频段。当中一个2x320M,一个160M)。三频WiFi支持2.4G+5G、2.4G+6G、5G+5G、5G+6G的MLO(国内用不了6G频段),硬件支持双5G MLO和双6G MLO(发哥表示会根据生态进展来放出对应软件);

支持双蓝牙连接,以及最新的“公里级”BLR蓝牙协议(Long Range远距离),支持最高12Mbps,384kHz,24bit的蓝牙音频。

X925超大核

CPU部分,最值得说的,当然是新的X925超大核架构。X925是新的Arm之⭐,它是现在手机端,设计特性最新、最先进的CPU架构。Arm官方PPT中↓,X925是IPC提升幅度最大的一代。

天玑9400的X925超大核是Arm V9.2指令集、10宽度的解码单元、6x128bit的SMID/FP执行单元、有SVE2/SME支持(256宽度)

苹果A18/A18 Pro的性能核是Arm V9指令集、10宽度的解码单元、6x128bit的SMID/FP执行单元、有SVE/SME支持(512宽度)

骁龙8 Gen 4的自研性能核是Arm V8.7指令集、8宽度的解码单元、4x128bit的SMID/FP执行单元、用的是更加“古老”的NEON(害,和骁龙X Elite同源,吃了“设计早”的亏)

今年的天玑9400和苹果A18/A18 Pro、上年的天玑9300和骁龙8 Gen 3(后两个都是X4超大核)都属Arm V9,而骁龙8 Gen 4和骁龙X Elite是Arm V8.7。

Arm V9的性能、能效、安全性都会更好。联发科在和虹软、快手等应用厂商验证中,新的V9指令集可以带来10%到20%的速度提升。

PS:和完全去掉32位支持的Arm V9不同,理论上用Arm V8.7的骁龙8 Gen 4,有可能会是唯一原生支持32位App的旗舰芯片(要等实测才能确认)。

X925的前端解码单元,和X4、苹果A18/A18 Pro一样是10宽度。

作为对比,A17 Pro是9宽度,AMD Zen 5是双4宽度的解码器,M1/M2/A15/A14都是8宽度,Arm的X3超大核可选6到8宽度(一年前的X4,核心变化就是加大解码宽度+缩短管线长度)。

Arm关于NEON与SVE 2的性能对比↑

而NEON、SVE、SVE 2是递进的三代(单指令多个数据执行)指令集,SVE/SVE 2的好处是支持灵活矢量长度,而SVE 2则新增对机器学习、DSP数字信号处理(5G和多媒体处理)的支持,可以提升解密、视频解码、机器视觉、摄像头视频流、游戏、基带等部分的性能和能效。

但能不能利用上Arm V9和SVE 2的先进特性,还要看应用生态的跟进,它们现在还是一个战未来的状态(几年后,机器步入中老年期,它们的性能和功耗差距可能就会被拉开)。今年苹果的加入,应该会加速新指令集的推进和普及。

性能实测:CPU单核涨23%/多核涨15%,GPU提升又又又超30%

开波前,还是老话:性能测试/跑分就像考试,跑分高未必体验好,但跑分差的,体验肯定不好。

联发科的工程机已经是老朋友了,从天玑9000开始就是这套模具。它有直接裸露的卡槽和极为先进的3.5mm耳机接口。

今年的配置是天玑9400,搭配16GB的LPDDR5X 10667Mbps皇帝版内存+1TB UFS 4.0闪存。

它和量产机的散热条件,有亿点不同。它只有基础的均热板,电池容量还很小,但为了“方便”更换内存和闪存,据说SoC和内存没有像量产机那样叠放。

跑分测试时室温21度到23度之间,机身温度固定到21到22度开跑,打开性能模式,过程中不使用风扇、散热背夹等工具。

*网上的散热背夹/冰箱跑分,多核分数会再高几百分。

测试现场不能跑SPEC 2017,这次的测试项目是GeekBench 6、GFXBench和3DMark,以及原神、星铁、绝区零这“米哈游三件套”。

天玑9400的GeekBench 6跑分↑

与其他SoC的对比↑

GeekBench 6(左侧两列)和GeekBench 5(右侧两列)是两套测试体系。

【GeekBench 6】是多核单负载,会比GeekBench 5更接近日常应用,对核心数更少的苹果更加有利。其以Clang6为主,不会像GeekBench 5那样主要调用本地库,所以无法像以前那样反映系统优化的影响,但正好用来测SoC的理论性能。

而以前的【GeekBench 5】测试,它可以调用本地库,且多核负载更高,所以安卓阵营的表现会更好。而GeekBench 6.3引入了前面提到的SVE/SME支持,所以天玑9400这些支持SVE/SVE2的芯片会有巨大提升。但因为现在应用生态的支持SVE/SVE2的App还不多,所以其实是GeekBench 5的成绩,可能更贴近现在的日常使用感受。

(第二列为“GeekBench 6分数与超大核频率”的比值↑,对比不同芯片在相同频率下的性能)

这是CPU单核性能集体暴涨的一代,天玑9400的单核性能毫无悬念地大幅抛离前代,比骁龙8 Gen 3强23%,比天玑9300强23.2%。

天玑9400的CPU多核性能,比骁龙8 Gen 3强22.2%,比天玑9300强15.4%。

天玑9400应该是同代旗舰芯片中,同频性能提升幅度最大的一颗。这或许是发哥能做到“同性能下,功耗比前代降低40%”的核心原因:

按3.62GHz计算,天玑9400在GeekBench 6中的同频性能,比天玑9300强16.6%,比骁龙8 Gen 3强18%,也比骁龙8 Gen 4的泄露跑分强9%;

如果按GeekBench后台记录的3.78GHz计算(频率比3.62GHz高4.4%),天玑9400的GeekBench 6同频性能,比天玑9300强11%,比骁龙8 Gen 3强12%,骁龙8 Gen 4的泄露跑分强4%。

GFXBench测试↑

3DMark Steel Nomad Light测试↑

GPU部分,GFXBench测试使用的渲染管线和API更贴近传统手游,适合测试传统的GPU性能。

而3DMark新推出的Steel Nomad Light测试,有了更新的特性,更贴近现代3A游戏的渲染管线,适合用来看新的旗舰GPU。但它对移动设备的要求很高,而且要求8GB内存,导致A16都没法跑该测试。

GPU这边,天玑9400在GFXBench的高压力测试中提升了35%左右。

在3DMark Steel Nomad Light直接屠榜,2524的成绩,提升近30%,把2200左右的A18 Pro、不到2000的天玑9300+、不到1800的骁龙8 Gen 3,全部甩在了身后。

根据现有的爆料,今年骁龙8 Gen 4的GPU也未必能赢天玑9400,玑哥大概率会继续卫冕GPU冠军。

最后再看看娱乐兔,安兔兔的总分不靠谱,但它单项的CPU和GPU测试还有一定的参考价值。

安兔兔这边,天玑9400的CPU提升22.9%,GPU提升37.3%,内存提升35.7%:

天玑9400工程机,总分284万分,CPU 62.3万,GPU 127.4万,内存53万, UX 41万(安兔兔V10.2.6)

天玑9300工程机,总分213万,CPU 50.7万, GPU 92.8万,内存38.9万,UX 31.2万(安兔兔V10.0.6-OB6)

骁龙8 Gen 3,冰箱小米14 Pro(-10.3度,肥威老师),总分218万,CPU 49.3万, GPU 90.4万,内存45.5万,UX 33万

骁龙8 Gen 3,小米14,总分200万,CPU 43万,GPU 83.4万,内存42万,UX 31.8万(WHYLAB)

骁龙8 Gen 3,一加12,官方总分211万,CPU 49.6万,GPU 91.4万,内存36.2万,UX 33.8万

骁龙8 Gen 2,小米13,总分157万,CPU 39.7万,GPU 60万,内存29.6万,UX 27.7万(WHYLAB)

A17 Pro,iPhone 15 Pro Max总分149.7万,CPU 36.8万,GPU 52.6万,内存26.4万,UX 33.9万(WHYLAB)

骁龙8 Gen 2的总分160万左右,CPU部分38万,GPU 60万

天玑9200+的总分165万左右,3GHz骁龙8+在130万左右

比起安兔兔的跑分,本彦祖更在意的是跑分过程中的能效和温升:同样是22度左右的室温测试,今年的温升是8度(掉电10%),上一年的温升是10度(掉电8%)。但毕竟是工程机,且机器的电池容量不明,数据仅供参考。

根据能量守恒,相近时间内,电能转化为热能,温升和掉电应该呈正相关。但实际趋势相反,可能是两代工程机芯片/散热配置不同,也有可能是工程机的电池不一样了……

游戏实测与能效分析:米哈游三件套

大家最关心的能效部分,因为还没有量产机,暂时只能通过游戏来侧面测试。

室温21到23度,屏幕亮度200尼特,全程没降亮度,压力从低到高排列:

原神15分钟,60fps最高画质+关动态模糊,须弥城跑图,平均帧率60.1帧,平均功耗4.36W,机身最高温37.1度。

星铁30分钟,60fps最高画质,星槎海中枢,前15分钟宣夜大道+后15分钟园林折返跑,平均帧率59.8帧,平均功耗4.72W,机身最高温39.5度。

绝区零30分钟,60fps最高画质,全高光映广场警局分署边的小路绕圈,平均帧率59.9帧,平均功耗4.84W,机身最高39.7度(实际跑了35分钟,取了中间30分钟)。

有趣的是CPU调度↑,在大型游戏这种高负载场景,天玑9400把X925超大核作为主要计算核心。可能是因为X925的性能足够强,且有能效优势。另外,偏重单颗核心的设定,可减少调度损耗,显著提升很多场景的使用体验。

【能效方面】天玑9400用上了和A18 Pro同级的台积电N3E工艺,联发科表示X4和A720都针对3nm制程做了二次优化,而且X4和A720的L2缓存全部翻倍。理论上,大缓存会增加静息功耗,但会降低中高频的功耗,从而提升综合能效表现。

结果天玑9400重点调用的,是新的X925超大核。说明这时候用X925才是更省电或更高效的方案,这让本彦祖不禁对X925的中低频能效产生极高的期待。

联发科在沟通会中多次提到能效。在被问及“为何没采用新发布的A725”时,联发科表示天玑9400这套是“对于能效的最优解”——他们的设计目标是达到30%以上的轻重载功耗优化,测试过后,最后选择继续用X4和A720来搭配X925。

测试下来,天玑9400的CPU单核强了23%,多核强了15.4%,GPU的提升又又又超过了30%。

天玑连续3代30%到40%级别的GPU性能暴涨,加上这两代CPU提升(X4、X925,以及提升大核比例的全大核设计),上一年的旗舰芯片,在绝对性能上已经通杀所有的移动游戏(实际制约它们的是功耗)。到天玑9400这一代,已经是发哥所说的“后满帧时代”了,要有更高维度的追求。

发哥认为后满帧时代的方向有3个:

降功耗:天玑9400就是在用X925超大核和规模更大的GPU去跑低频,以此降低功耗。

跨端移植PC大作:这部分,现在的主要进展是提升绝对性能和光追性能。天玑9400的光追性能又提升50%,引入了类似《黑神话:悟空》这些PC 3A大作的光追技术(其搭载的OMM追光引擎,宣称加入预处理部分,会过滤不需要计算的部分,把算力就留给物体边缘)

AI生成渲染+AI互动(教练互动和NPC):发哥现在官宣的,是《王者荣耀》首发的端侧AI语言教练和《废土》的AI NPC。

测试现场的超分对比,上方为高分辨率的视频,下方是超分上来的视频↑(它们的分别越小越好)

而一同发布的“星速引擎MAGT 3.0(降触控/网络等延迟)、倍帧2.0(电视上的插帧同源)、首发的星速引擎超分技术”中,MAGT 3.0是每年都在更新的功耗和延迟控制技术;而后两个是超帧和超分,它们就是现在各家独显芯片的工作内容。

发哥现场也有样机展示,效果当然还可以,特别是GPU内的超帧,对比“独显芯片”会有天然的优势,就看到时量产机要怎么使用了。

今年还有一个特殊点,发哥第一次重点说到后台调度 ——天玑调度引擎,并公布了自己的APP启动和触控响应数据。

Google原生的调度,圈不准一个应用的全部后台线程,所以不敢大胆地做算力倾斜。

而联发科表示他们的“VIP引擎”有更准的框法,且无需人工白名单,可以自动判断+实时感知。给主线程和小线程的算力倾斜更大,且可以同时通知CPU/SLC、WiFi蓝牙等部件。

官方的测试,是在跑原神的时候运行一个可以吃爆CPU的后台APP。测试中,天玑9400依然可以保持59fps,而天玑9300是29fsp,骁龙8 Gen 3是20fps。

这芯片厂商的软件调度,原理听着有点像vivo OriginOS的“不公平调度”↑,四舍五入,也算是向“墓碑机制”的努力了。

联发科表示从天玑9300那一代,开始系统性研究APP轻载时的启动和响应速度(除了启动快,还要每次启动的速度都稳定可控,降低偶发卡顿对“高级感”的影响),重点确认执行管道不被打断:

APP启动方面,宣称天玑9400的反应时长小于100ms(iPhone 15 Pro Max是135ms,iPhone 11之后的iPhone差不多都是这个级别),反应误差<12ms(iPhone 15 Pro Max是13ms)。

滑动响应<110ms(iPhone 15 Pro Max是<127ms,主流是150到170ms),滑动点停时长<40ms(iPhone 15 Pro Max是50ms内)。

不知道为什么,看到这里就有种强烈的预感,相关的内容大概率会出现在之后的终端发布会。

先天AI圣体

现在几乎所有头部芯片和手机厂商都在搞AI,但高通和苹果对AI的重视程度,明显没有联发科高。

天玑9400的NPU890,宣称Diffusion性能提升100%,LLM性能提升80%,能效提升45%。

联发科公布的天玑9400苏黎世测试(ETHZ AIBenchmark )成绩超过6700分,相比前代提升巨大:天玑9300测试机的成绩是3145分,X100 Pro是3410分,骁龙8 Gen 3的Find X7 Ultra是3348分,而骁龙8 Gen 2 for Galaxy的S23 Ultra是2500分上下,骁龙8+是1800分出头,天玑9200是1600分左右,天玑9000在1000分出头。

除了AI性能,发哥的AI特性也是加得最积极的。AI的发展趋势是从相机→大语言模型→文生图→图生视频,天玑9400这一代就直接支持端侧图生视频了:

天玑9300是移动端首个搭载硬件生成式AI引擎、首个支持生成式AI端侧技能扩充、支持的模型最多、有硬件内存压缩、可以跑330亿参数的大模型的SoC;

而天玑9400是首个支持图生动画(Stable Diffusion)、Temporal Tensor有时域张量硬件指令加速、首发端侧DiT(Diffusion Transformer)、首发端侧LoRA训练、首发端侧混合专家MoE模型(而且是全部跑在NPU上)、支持端侧运行Meta刚发布的LLama 3.2的1B和3B模型(11B还是要云端)的移动SoC;

联发科表示天玑9400支持多模态50Token/s(Google Tensor G4是45Token/s、A18 Pro是30Token/s),速度已经接近GPT 4o(端侧就能理解图片,像是直接看懂英文菜单并给出建议);

大语言模型的Token从之前的2K,暴涨到32K,提升15倍;

今年是硬件低位宽KV缓存压缩,内存占用降低50%,传统7B模型需要的7.68GB内存直接减半到3.65GB;

联发科表示其与小红书合作的端侧SDXL大图生成,有2倍的速度提升,比云端方案还快。而和虹软合作的AI学习,可以本地用其他图片修复拍糊的人像照。

除了图生视频,AI的另外一个趋势是端侧运行。毕竟端侧训练可以保留记录,且没有隐私问题。联发科表示AI训练是在用户睡觉过程+接电条件下,用NPU进行的。

(笼统理解:AI就是极度擅长找规律的高级复读机,它们用资料学习的过程叫“训练”,它们用训练生成的模型输出内容就叫“推理”)。

最后,在联发科“AI先锋计划”的PPT里,除了老朋友vivo、OPPO、小米和传音,还出现了荣耀。不知道后面会不会看到天玑9400的荣耀旗舰?

总结

现在确实是联发科说的“后满帧时代”,无论是CPU还是GPU,中低频能效才是关键,能实际用到的性能才是你的。

在手机能撑得住的6W功耗以下,能输出的性能才有实际价值。无论极限的冰箱跑分有多高,如果常温都降频就没意义了。

发哥今年依然是不建议用风冷或散热背夹跑分,依然是把最强跑分的名头留给ODM厂商:天玑9400工程机284万的安兔兔分数,依然明显低于量产机297万分的常温跑分,以及303万分的冰箱跑分。

天玑9400、骁龙8 Gen 4这一代的性能提升幅度都非常可观,但它们的中低频功耗,现在还是个未解之谜。总之,今年不是超神,就是超鬼,搞得想上车和想下车的等等党都进退两难。

半导体有个“不可能三角”——芯片无法同时满足“面积(成本)-性能-能效”3个要求。

而发哥今年的答案,是用钞能力保性能和能效:堆上291亿晶体管,让大规模更大的X925超大核和GPU跑在更甜点的频率。

上一年的天玑9300,凭借全大核的CPU设计,换来比骁龙8 Gen 3更高的能效。而换上X925的天玑9400,宣称GPU 峰值性能比前代提升41%,功耗降低44%,而实际游戏中让X925做绝对主力的操作,也让我们对其能效充满了期待。就等10月14日发布的vivo X200系列来给大家揭开谜底了。

0 阅读:32
评论列表
  • 2
    2024-10-11 16:13

    就按你吹的,同性能功耗降低40%+,为什么测试只降低20%多点??继续吹吧。

  • 2024-10-10 04:09

    [点赞]