另类视角解读DeepSeek

新浪财经 2025-03-06 11:34:06

罗马不是一天建成的,DeepSeek的爆火也不是偶然的。为何DeepSeek从公司成立到发布第一个大模型只用了短短五个月?DeepSeek能够风靡全球依靠的究竟是什么?今天,我们就从另一个角度带你了解不一样的DeepSeek。

#1

DeepSeek发展历程

除了相关理论和训练经验,大语言模型的开发还需要耗费大量的计算资源和大量的注释成本。我们先看下面的表格(表1):

DeepSeek从公司成立到发布第一个大模型DeepSeekLLM,只用了五个多月的时间,但在这之前,DeepSeek的创始人梁文锋先生从2008年起就开始使用机器学习等技术探索全自动量化交易。2016年推出第一个AI模型,实现所有量化策略的AI化转型;2019年投资超亿元建立了搭载1100块GPU的训练平台“萤火一号”;2021年又投入10亿元,建立了搭载约1万张英伟达A100的“萤火二号”。DeepSeek的多篇论文中,都能看到梁文锋的署名。技术经验的积累、硬件平台的支持,这些都可以视为DeepSeek的起点。

在第一个大模型DeepSeekLLM发布之后的一年时间里,DeepSeek又陆续发布了八个模型,涉及大语言模型DeepSeek-V2&V3、代码语言模型DeepSeek-Coder&Coder-V2、数学模型DeepSeekMath、视觉语言模型DeepSeek-VL&VL2等;直到今年1月20日,DeepSeek发布了推理模型DeepSeek-R1,终于一鸣惊人,引起了世界的关注。

#2

大语言模型发展背景&DeepSeek为何会风靡全球

自从2022年11月30日OpenAI公司发布chatGPT以来,OpenAI一直是大语言模型领域的领头羊。大模型作为训练门槛比较高的领域,只有少部分大公司能从头开始训练,目前最好的几个产品包括OpenAI的GPT系列、Google的Gemini系列、Cloude的Sonnet系列都是闭源的。而一些开源的模型,像LLaMA、通义千问等,和最好的商业模型之间的差距还是比较大的。

在此我们重点讨论2024年9月12日OpenAI发布的OpenAIo1,这个系列的新模型标志着AI领域的一次重大飞跃。在训练时,通过强化学习执行复杂的推理,在回答问题前,能够通过内思考并产生一长串的思维链,模仿人类的认知过程。这种方法使得AI能够处理更复杂的任务,并在科学、编程、数学等领域解决更具挑战性的问题。之前的一些工作也探索了各种方法,但都没有达到与OpenAI的o1系列模型相媲美的推理性能。

DeepSeek-R1作为DeepSeek发布的推理模型,在推理任务上实现了与OpenAI-o1-1217相当的性能,且这也正是DeepSeek-R1能风靡全球的最主要原因。通读DeepSeek的多篇论文和技术报告,我们可以看到DeepSeek一步一个脚印,一开始仅仅只是超越开源模型,超越OpenAI早期的GPT-3.5,到后来能和GPT-4、OpenAIo1相比较等等,DeepSeek在这个领域经过了创新、训练经验的积累,最终在DeepSeek-R1迎来了大爆发。

总而言之,DeepSeek能够风靡全球,依靠的是三点:

开源且在开源界领先;

大幅节约了训练资源;

能够和OpenAIo1比肩的推理模型。

前2点在DeepSeek-V3中得以达成,第3点在DeepSeek-R1中达成。

#3

相关概念

1、Multi-HeadLatentAttention(MLA)

在传统的Transformer结构中,Multi-HeadAttention(MHA)的KV缓存对LLM的推理效率构成了重大障碍。一些解决方法,例如GQA和MQA,减少了KV缓存但同时也降低了性能。

DeepSeek引入了Multi-HeadLatentAttention(MLA),一种配置了低秩键值联合压缩(low-rankkey-valuejointcompression)的注意力机制。与MHA相比,其性能更优,同时显著减少了推导过程中的KV缓存,MLA通过将键值(KV)缓存大幅压缩为潜向量来保证高效推理。MLA结构如下图(图1)所示:

2、混合专家模型(MixtureofExperts,简称MoE)

MoE理论起源于1991年的论文《AdaptiveMixtureofLocalExperts》,2017年Google将MoE与LSTM层相结合,引入自然语言处理领域,通过在LSTM层之间增加MoE实现了机器翻译方面的性能提升。2020年Google又将MoE引入Transformer架构中,并提供了高效的分布式并行计算架构。

现在大模型领域的MoE主要由两个关键部分组成,一部分稀疏MoE层,包含若干个专家,每个专家本身是一个独立的神经网络。每个专家模型处理不同的数据分布,从而提升了大模型在各个细分领域的专业能力,使得MoE在处理复杂任务时性能变得更好;另一部分是门控网络或者路由,这个部分判定输入样本(token)应该由哪个或者哪些专家来进行处理。token的路由方式是MoE使用中的一个关键点,因为路由也是由学习的参数组成,并且与网络的其他部分一起进行训练。

DeepSeek使用了DeepSeekMoE架构,如下图(图2)所示,将传统Transformer模型中的每个前馈网络FFN层替换为MoE层。该架构采用细粒度的专家分割和共享专家隔离,通过稀疏计算以更经济的成本训练强大的模型。

在这里顺便提一下许多论文或者技术报告中提到的Dense模型。Dense的概念与MoE的稀疏计算正好相反。当进行Inference时,Dense模型的所有参数都会被激活参与运算。与传统的Dense模型相比,MoE能够在远少于前者所需的计算资源下进行有效的预训练,计算效率更高、速度更快,而模型的规模也得到显著扩大,获得更好的性能。

由于MoE在推理过程中,根据输入数据的不同,动态选择不同的专家网络进行计算,这种稀疏激活的特性让MoE模型拥有更高的推理计算效率,从而获得更大的推理吞吐量,也让用户获得更快的AI响应速度。

MoE模型的挑战之处在于,对显存和通信的要求特别高,同时MoE模型的训练存在不稳定性和过拟合的问题,这些需要硬件的支持和极致的工程经验能力。

3、缩放法则(ScalingLaw)与涌现

2017年Hestness等人就发表了关于缩放法则的论文《Deeplearningscalingispredictable,empirically》。2020年Henighan等人提出,随着计算规模C、模型规模N、数据规模D的增加,模型的性能可以得到可预测的提高,并给出了这三者的近似公式C=6ND,因此在增加计算预算时,如何优化模型和数据规模之间的分配也是缩放法则的一个重要研究目标。

大语言模型的发展,更大的模型实现了意想不到的显著性能提升,将缩放法则研究推向了一个新的高峰。缩放法则的研究结果表明,扩大计算预算将继续产生显著效益,这进一步促进了模型规模的扩大。

当模型超过某个临界阈值时,性能会显著提升,甚至会表现出意想不到的能力,我们称之为涌现。例如GPT-3中的Few-shot&One-shot&Zero-shot,通过提示实现上下文少样本学习,给我们展示了激动人心的前景。

在DeepSeek的第一个大语言模型DeepSeekLLM相关的文档里,DeepSeek深入研究了缩放法则,并给出了他们的独特发现。因为关于扩展法则的研究结论不一,所以DeepSeek重新审视了缩放法则,解决了不确定性。DeepSeek使用了新的模型规模表示法,non-embeddingFLOPs/tokenM,然后使用更精确的C=MD取代了近似的计算预算公式C=6ND,并准确预测了DeepSeekLLM7B和67B模型的预期性能。这反映了长远的视角,也是开发持续改进模型的关键。

4、思维链(Chain-of-Thought,简称CoT)

缩放法则已经被证明可以提高性能,但单靠扩大模型大小还不足以在算术、常识、符号推理等任务上实现高性能。CoT概念由GoogleBrain的JasonWei等人在2022年论文《Chain-of-ThoughtPromptingElicitsReasoninginLargeLanguageModels》中提出。从其论文题目可以看出,CoT最初是用在Prompt工程中,通过Promptlearning来解锁大型语言模型的推理能力,其核心在于通过生成一系列中间推理步骤,显著提升大型语言模型进行复杂推理的能力。例如在数学题求解中,有思维链引导(展示解题思路)的模型相比仅给出答案的模型,在推理准确性上有显著差异。在多种大型语言模型实验里,CoT在算术、常识和符号推理任务中均提高了性能,在GSM8K数学问题基准测试中可使大模型达到当时先进的准确性水平。

OpenAIo1作为第一个推理模型,展现了如何赋予语言模型生成类似思维链的能力,通过一系列连贯的中间推理步骤,导向问题的最终答案。CoT大幅度提高了LLM在复杂推理任务上的性能,并且输出的中间步骤方便使用者了解模型的思考过程,提高了大模型推理的可解释性。

DeepSeek-R1是DeepSeek推出的推理模型,并实现了和OpenAIo1相当的性能。在后续的内容中,我们会根据DeepSeek-R1的技术报告,探讨DeepSeek-R1的实现流程。

5、近端策略优化(ProximalPolicyOptimization,简称PPO)与组相对策略优化(GroupRelativePolicyOptimization,简称GRPO)

现在大语言模型的训练流程一般都会经历预训练-监督微调-强化学习微调这三个阶段。监督微调之后的强化学习微调已被事实证明能进一步提升LLM的数学推理能力,PPO是这一阶段广泛使用的actor-critic强化学习算法。DeepSeek在《DeepSeekMath:PushingtheLimitsofMathematicalReasoninginOpenLanguageModels》这篇论文中提出了用高效的GRPO算法来替代PPO。

如上图(图3)所示,PPO中需要使用的ValueModel(critic模型)通常是另一个与PolicyModel大小相当的模型,因此会带来大量的内存占用和计算负担。在RL训练过程中,价值函数被视为计算减少方差优势的基线。而在LLM环境中,奖励模型通常只给最后一个标记分配奖励分值,这可能会使精确到每个标记的值函数的训练复杂化。为解决这个问题,GRPO放弃了critic模型,而是使用针对同一个问题产生的多个采样输出的平均奖励作为基准。从群体得分中估计基线,大大减少了训练资源。相比PPO,GRPO的优点在于省掉了价值模型,减少内存和计算负担,还与“对比式RewardModel”天然契合,提高了模型的性能。

#4

DeepSeek-V3的创新点

根据DeepSeek发布的53页技术文档:《DeepSeek-V3TechnicalReport》,其创新点可总结为以下几点:

首先,DeepSeek-V3是一个采用了DeepSeekMoE架构的MoE模型,总参数达到了671B,对每个token会激活37B的参数。超越其他开源模型,与领先的闭源模型性能相当;在训练框架上,设计了一种创新的管道并行算法DualPipe,通过有效重叠前向和后向计算-通信阶段来加速模型训练,还减少了管道气泡;高效实现了跨节点All-to-All通信;实现了极小开销下的极大内存节省;提出一种细粒度的混合精度框架,利用FP8数据格式进行训练。全部训练成本仅需2.788MH800小时。

其次,在技术上DeepSeek-V3采用了Multi-headLatentAttention(MLA);DeepSeek-V3首创了一种无辅助损失的负载均衡策略(auxiliary-loss-freestrategyforloadbalancing);设定了多token预测训练目标(multi-tokenpredictiontrainingobjective)以提高性能;

再次,其训练流程为:在14.8万亿个token上进行预训练,然后是监督微调(SupervisedFine-Tuning,SFT)与强化学习阶段。DeepSeek-V3优于其他开源模型,并且可以和领先的闭源模型相比较。

#5

DeepSeek-R1的创新点

DeepSeek-R1是在DeepSeek-V3的基础上训练出来的,在推理任务上实现了与OpenAI-o1-1217相当的性能。与DeepSeek-V3相比,其创新点在于:

1、证明了仅通过大规模强化学习也能显著提升模型的推理能力。使用DeepSeek-V3-Base作为基础模型,采用GRPO作为RL框架,无需监督微调,仅通过大规模强化学习训练而成的DeepSeek-R1-Zero就自然涌现出了许多强大且有趣的推理能力。DeepSeek-R1-Zero遇到了诸如可读性差和语言混杂等挑战,因此引入了DeepSeek-R1。

2、描述了DeepSeek-R1的开发流程,其训练管道为:

首先构建并收集数千条高质量CoT数据来进行冷启动微调DeepSeek-V3-Base模型。引入少量高质量数据作为冷启动,可以进一步提升推理性能;

随后进行类似DeepSeek-R1-Zero的面向推导的强化学习(RL);

拒绝采样和监督微调。在RL过程接近收敛时,通过对RL检查点进行拒绝采样,结合来自DeepSeek-V3在写作、事实问答和自我认知等领域的监督数据,创建新的SFT数据,然后重新训练DeepSeek-V3-Base模型。使用新数据微调后,检查点会经历额外的RL过程,考虑所有场景的提示;

继续强化学习,提高模型的有用性和无害性,同时精炼其推理能力。

以上步骤进一步提高了推理性能,不仅能生成清晰连贯的思维链(CoT),还展示了强大的通用能力。

3、探索了从DeepSeek-R1到更小dense模型的蒸馏过程。证明了较大模型的推理模式可以被提炼到较小的模型中,与通过强化学习在小模型上发现的推理模式相比,性能更优。基于QWen和LLaMA从DeepSeek-R1蒸馏出的模型,优于在其上进行强化学习。这表明了从更大基础模型发现的推理模式对于提升推理能力至关重要。

#6

未来展望

先看看2025年2月27日OpenAI刚发布的GPT-4.5。OpenAI认为,提高智能的两个维度,一个是扩大无监督学习,一个是扩大推理。通过扩大计算资源和数据规模,以及架构和优化创新,GPT-4.5扩大了预训练规模,增强了识别模式、建立联系、在无推理的情况下生成创造性观点的能力,同时其拥有更广泛的知识库、更能遵循用户意图的能力、更高的情商,从而在改进写作、编程、解决实际问题中更有用,拥有更广泛的知识,对世界有更深刻的理解;更深的世界知识,使得GPT-4.5相比以前的GPT系列,准确率更高,幻觉率更低,更为简洁和对话化。

DeepSeek在最近的一段时间也开源了3FS(一个高性能的分布式文件系统)和DeepEP(一个高效的专家并行通信库)等能有效提高大语言模型训练性能的库。

很显然,缩放法则仍然有效,继续扩大数据规模和计算资源仍是目前的方向。尽可能利用现有的计算资源,也可以认为是扩大计算资源的一种另类途径。计算能力每提升一个数量级,就会带来新的功能。模型越来越智能,越来越能理解世界,越来越能解决更复杂的问题。同时,其安全性也是未来需要特别关注的方向。

部分参考资料:

《DeepSeekLLM:ScalingOpen-SourceLanguageModelswithLongtermism》

《DeepSeek-Coder:WhentheLargeLanguageModelMeetsProgramming-TheRiseofCodeIntelligence》

《DeepSeekMath:PushingtheLimitsofMathematicalReasoninginOpenLanguageModels》

《DeepSeek-VL:TowardsReal-WorldVision-LanguageUnderstanding》

《DeepSeek-V2:AStrong,Economical,andEfficientMixture-of-ExpertsLanguageModel》

《DeepSeek-Coder-V2:BreakingtheBarrierofClosed-SourceModelsinCodeIntelligence》

《DeepSeek-VL2:Mixture-of-ExpertsVision-LanguageModelsforAdvancedMultimodalUnderstanding》

《DeepSeek-V3TechnicalReport》

《DeepSeek-R1:IncentivizingReasoningCapabilityinLLMsviaReinforcementLearning》

0 阅读:36