DEEPSeek-V3厉害在哪儿呢?

脆脆卷 2024-12-30 11:09:34
周末聊的最多的就是幻方新研的,DEEPSeek-V3。 号称只用了十分之一的算力,就能达到OpenAI的效果! 复杂的东西,先说结论: 东西挺牛逼,还便宜,关键是国产的。 但核心是,走别人走过的路,当然容易了,也就省下很多算力,成本。 你想象一下,只需要进行在开源的基础上,进行定向的研发和投入,肯定省事儿啊。 这玩意儿厉害在哪儿呢? 性能+性价比,DeepSeek-V3作为一款总参数量671B但激活参数仅37B的MoE模型,在主流基准测试中全面超越Llama 3.1 405B, 并与Claude-Sonnet-3.5-1022接近,实测性能介于Sonnet-3.5和GPT-4o之间,成为国产开源模型的佼佼者。 更令人瞩目的是其训练成本仅为4000万人民币,是Llama 3.1的1/11,推理成本也大幅降低,输入/输出每百万Tokens仅需2元/8元。 无论怎样,DeepSeek-V3和OpenAI的o3模型表明预训练阶段的“大力出奇迹”策略遇到瓶颈,但模型能力的提升仍在其他维度发生, 如后训练强化学习和推理时计算。算力投入依然会增加,只是重心从预训练转移到了后训练和推理。 尽管如此,预训练的算力需求也不应被过度悲观看待,算力通缩和持续增长的需求表明算力投入仍是关键。 业内一些大佬,也对DeepSeek-V3的评价褒贬不一。 有人认为其技术实力和创新值得肯定,但也有人指出其训练过程中使用了预训练模型生成数据。 例如,某大佬:“幻方这消息纯粹就是断章取义。训练一个671B的moe模型,而且用了fp8的架构,来达到gpu耗时数的下降, 幻方在技术上确实牛。但幻方在训这个模型之前,是用了他们自己的r1模型(对标op­e­n­ai o1模型)来生成数据的, 这个部分的反复尝试要不要算在成本里呢” 无论如何,终究是推理需求依然巨大,模型能力的提升需要大量算力和数据支持。 最后,DeepSeek-V3的发布可能引发行业内的鲶鱼效应,推动国产大模型在能力和成本上的进一步提升。 未来,随着俺们在于模型能力的增强以及成本的一系列下降,相关应用落地速度也会愈发的快。 老规矩别掉队,还在的“928”!#DEEPSeek-V3
0 阅读:11
脆脆卷

脆脆卷

职场上的那些事