1、DeepSeek的优势性能优异:DeepSeekR1在数学、代码层面与Op

广东谭先生 2025-02-04 22:51:39

1、DeepSeek的优势

性能优异:DeepSeek R1在数学、代码层面与OpenAI 12月份的R1完整版本不相上下,在一些通识和科学问题上稍差一点,模型性能已比肩R1。

迭代速度快:2024年5月推出V2,11月R1预览版上线,12月推出V3,一个月后DeepSeek已可与12月份的R1相当,之后又推出多模态的理解和深层模型,迭代速度非常快。

成本低:和OpenAI相比,DeepSeek的综合成本约为其30分之1;和OpenAI的O3 mini相比,DeepSeek具有较强性价比,成本约为其一半到4分之1。若为R1版本,相比之下成本也能降低2分之1到4分之1。

思路创新:DeepSeek强调用纯粹的强化学习和能启动的数据,中间过程设计使模型产生较强的反思思维链能力,且语言一致性强。

开源领先:DeepSeek是全球最顶尖的开源模型,让海外震惊,国内模型率先真正进入全球能力竞争。

2、算力相关

算力成本优化:DeepSeek对算力成本优化较大,其训练对卡的需求较低,如V3的训练成本约为558万美金。论文中体现了规模效应,模型参数、GPU小时数、训练语料等不断增加,虽单一模型训练成本升高,但在强化学习轮次达到一定程度后会迎来拐点,即使有大量优化,DeepSeek仍体现出较强的scale law。

对算力格局的影响:DeepSeek用更底层的PTX方式做调优,大范围提升通信效率,减少缓存,提高总计算效率,这对英伟达中期影响不大,对国产算力而言,若能快速响应并做好芯片设计等,提供有性价比的产品,将是一个机会。

3、应用方面

利好应用:推理成本降低且效果好,利好全球应用及国内应用,尤其对高容错的C端和B端应用有价值,对数学、代码等特定行业应用也是利好,如在教育领域,对计算机行业影响大。

4、投资思考

大模型水平与应用不确定性:国内大模型水平开始跟上全球顶尖水平,但持续放量的应用不确定性较高。

规模效应与应用主题:目前有规模效应的持续扩张应用尚不清晰,AI应用的主题类投资节奏未完,在主题时间内,基于DeepSeek和豆包的相关应用公司有持续投资机会,大厂生态最强,主题龙头会持续发酵。

其他方向:自动驾驶方向明确,国内代表公司及特斯拉产业链公司已走趋势,可作为AI验证的扩散器;机器人是AI应用的终极领域,国内大模型提升对其是加持;军工AI需求好预测,格局好,今年投入会增加。

5、DeepSeek的技术细节

R1模型:DeepSeek R1发布后在海外反响强烈,接近一个月后追上OpenAI的O1,成本低且在数学方面表现超过O1。R1论文中提到发布了两个模型,R1ZL直接跳过监督微调进行强化学习,取得了较好成果,但可读性差,语言混杂,后又训练了R1模型,进行了多阶段的监督微调,并使用了创新的GRPO算法和基于规则的奖励。此外,论文还发布了六个小模型,展示了蒸馏模型的优势。

V3模型:V3是混合专家模型MOE,参数量为671B,每次激活的参数量为37B,专家粒度细,且在训练时有负载均衡策略。V3在14.8万亿token上训练,在2000块H800上训练,成本较低。V3提出了基于FP8精度的混合精度训练框架,达到模型性能和成本的平衡。

其他方面:DeepSeek用PTX在通信方面从更底层进行优化,体现其人才软硬件精通,未来看GPU厂商时需关注其对不同精度数据格式的支持。此外,豆包1.5 Pro在硬件上做了优化,DVC推出的视觉方面模型表现优秀。R1团队提到未来会改进通用能力、多语言混淆等问题。DeepSeek的成果全部开源,利好海内外AI应用落地加速。在预训练模型投入可能放缓的情况下,后续训练阶段的强化学习和微调是大模型厂商重点投入方向。大模型厂商的竞争除算力储备外,更是人才比拼,利好国产模型。算力方面,长期对推理算力利好,降低模型门槛可吸引更多玩家,DeepSeek在硬件层面的优化利好国内外芯片厂商。

0 阅读:24
广东谭先生

广东谭先生

感谢大家的关注