【DeepSeek重塑国产AI生态圈】通过“开源周”以及公开发布V3/R1大模型的推理系统技术介绍,DeepSeek成为AI技术圈和开发者的“开源之神”,已经被昵称为DeepOpen。
当DeepSeek的开源代码如蒲公英种子飘向世界,国内AI芯片行业是否能借此东风,迎来属于自己的春天?
“(DeepSeek的开源)对整个AI行业都有一定程度的推动。”行业研究机构Omdia人工智能首席分析师苏廉节告诉《中国经营报》记者,AI芯片厂商通过这些开源代码更加了解DeepSeek大模型的架构和特点,进而做出相对应的优化,特别是算力的配置、训练推理的架构、存储资源的需求等。
摩尔线程和壁仞科技这两家国内AI芯片的代表厂商都在接受采访时表示,DeepSeek这种低算力需求的大模型,对国产AI芯片的发展是一个重要机遇。
记者还注意到,随着DeepSeek的出圈,国产算力迎来火爆行情,一大批一体机密集上线,由此出现“2025是一体机元年”的观点。“一体机今年火起来主要是因为DeepSeek,很多政企客户都想把DeepSeek用起来。”容联云大模型产品负责人唐兴才表示,市面上目前满血版DeepSeek大模型一体机售价约为200万元。
盘活国产AI生态
在“开源周”上,FlashMLA是DeepSeek专为英伟达Hopper 架构 GPU(如英伟达 H100/H800)优化的注意力解码内核,已投入生产,现在被视为提升显卡潜力的“加速器”。DeepEP则是首个用于MoE模型训练和推理的开源EP通信库,可以直接调用 Hopper GPU的 TMA 张量内存加速器,被称为大模型训练的“通信管家”。而DeepGEMM是一个优化矩阵乘法的工具,实现FP8低精度下的1350+ TFLOPS算力,代码仅300行,被称为矩阵计算的“省电小能手”。DualPipe主要用于解决流水线并行中的“等待时间”问题;比如,多任务步骤速度不一时,其能双向调度,减少空闲时间。EPLB则用于自动平衡GPU负载,当某些AI专家模型任务过重时,会复制任务到空闲显卡,避免“忙的忙死,闲的闲死”。最后的是3FS,被称为数据处理的“极速组合”,采用了分布式文件系统,利用高速存储和网络技术(如SSD、RDMA),让数据读取速度达到每秒6.6TB。
值得注意的是,DeepSeek在包括上述开源项目中直接调用比英伟达CUDA更底层的指令PTX(Parallel Thread Execution,一种底层硬件指令集,用于直接与GPU驱动函数进行交互,实现更为精细的硬件操作、优化TMA加速器等),显示出DeepSeek对于GPU微架构的深度了解。这种能力通常为芯片设计团队所独有。
苏廉节也表示,DeepSeek团队对GPU硬件底层技术的理解力很强,这在大模型行业并不多见。甚至有消息传出,DeepSeek在寻找芯片设计人才,想要做自己的芯片。对此,苏廉节认为,目前140人的DeepSeek团队要做芯片设计很困难,但它背后的幻方量化所在的金融领域确实有定制化芯片的需求。
目前,摩尔线程已实现对DeepSeek开源周“全家桶”的支持,涵盖FlashMLA、DeepEP、DeepGEMM、DualPipe 以及 Fire-Flyer文件系统(3FS);壁仞科技在“开源周”之前就已经实现对FlashMLA、DeepGEMM、DeepEP等核心模块类似功能和优化技术。
事实上,春节期间已有多家国产芯片企业陆续宣布对DeepSeek模型的适配或者上架服务,包括华为昇腾、沐曦、天数智芯、摩尔线程、海光信息、壁仞科技、云天励飞、燧原科技、昆仑芯等。
“通过‘开源周’,更多人尤其是开发者看到了DeepSeek的优势和如何去进行调优和适配。”苏廉节认为,国内AI芯片厂商可以从DeepSeek的开源代码库中看到和进一步了解底层的哪些代码对未来的适配性有帮助。
“比如DeepEP是一个专门为混合专家模型开发的并行通信技术,需要芯片厂商支援。”苏廉节表示,芯片厂商因此会开发相对应的工具,让开发者能更顺畅地进行代码转移和应用支撑。
摩尔线程方面则认为,DeepSeek的开源模式为国产AI芯片厂商提供了与软件开发者合作的机会。“通过与DeepSeek为代表的开源模型的合作,国内AI芯片厂商可以更好地理解AI应用的需求,进行针对性优化;国产模型+国产芯片可以形成完整的AI闭环,加速国产AI生态的发展进程。”
“短期内,国产GPU厂商应保持训练芯片的持续迭代,比如最好支持FP8,确保技术不脱节,同时通过推理芯片快速切入商业化场景。”摩尔线程方面还表示,长期来看应该瞄准“训(练)推(理)一体”架构,通过统一计算平台降低客户切换成本,最终在自主生态中实现训练与推理的协同增长。
激活一体机市场
摩尔线程方面还提到,DeepSeek大幅降低AI成本,让AI更加普及,反过来又会提升行业对算力规模的需求。
中信证券研报指出,算力算法联合优化带来的降本让人们看到AI应用落地的更多可能,同时杰文斯悖论有望支撑长期推理算力需求。杰文斯悖论指的是,当技术进步提高了使用资源的效率,但成本降低导致需求增加,底层资源的消耗量反而提升。
根据《DeepSeek-V3/R1推理系统概览》一文,DeepSeek算了一笔账:“假定GPU租赁成本为2美元/小时,总成本为87072美元/天。如果所有 Tokens全部按照DeepSeek R1的定价计算,理论上一天的总收入为562027美元,利润率545%。”
如此高的成本利润率,让中小厂商在技术平权之下迎来降本机遇。
记者注意到,当多地政府宣布政务系统接入DeepSeek、一大批AI公务员上岗时,DeepSeek一体机也颇为火爆。据不完全统计,至少已有华为昇腾、中科曙光、浪潮、新华三等60余家厂商,在加速部署一体机。
“一体机一直都在的,只是DeepSeek非常适合本地化部署。”苏廉节指出,一体机并不是新产品,就是一个结合算力、存储和网络的小型数据中心,“主要由几个小型服务器构成,用于边缘侧小规模的商用场景”。
在唐兴才看来,大模型一体机是把大模型和硬件(如CPU、GPU、存储设备等)结合,封装为一体化设备。“一体机客户目前来看主要是国央企、政府、金融机构这些对隐私安全要求比较高的客户。”唐兴才说。
据唐兴才观察,大模型一体机市场玩家主要可分为系统集成商、应用厂商、模型厂商和GPU资源厂商,具体有华为、联想、阿里巴巴、百度、浪潮、新华三、中科曙光等。
“我们主要是大模型应用厂商,会和硬件厂商一起做一体机。因为客户想要的是模型+应用场景。”唐兴才表示。
“相比传统的云方案,大模型一体机具备私有部署、交付便捷、算力门槛低和稳定性的优势,能够满足金融、能源、政务、医疗等数据敏感型行业对于安全和隐私的要求。”摩尔线程方面表示。
据市场反馈,DeepSeek一体机的价格从几十万元到数百万元不等。有创业公司表示,“满血一体机”价格在150万—200 万元。
唐兴才表示,200万元一般能跑满血版DeepSeek一体机。而另有大模型公司人士表示,一体机售价通常包括硬件+软件,硬件毛利率约为15%,软件毛利率在 40%左右。
据浙商证券测算,随着DeepSeek快速部署需求的增加,一体机的市场需求有望显著增长,预计2025—2027 年,一体机需求量将分别达到15万台、39万台和72 万台,未来三年DeepSeek一体机市场空间有望达到1236 亿元、2937 亿元和 5208 亿元。
唐兴才所在公司刚开始推一体机,市场反响还可以。“现在还看不清,等几个月看看吧。”他对市场前景谨慎乐观。(中国经营报)