DeepSeekV3和R1模型基于Transformer架构,采用了

汉唐天云商业说 2025-02-05 15:21:45

DeepSeekV3 和R1 模型 基于Transformer架构 , 采用 了 Multi-Head Latent Attention (MLA) 和DeepSeek MoE两大核心技术。 MLA通过减少KV缓存显著降低了内存占用 提升了推理效率; DeepSeekMoE则通过辅助损失实现了专家负载的智能平衡, 进一步优化了模型性能。

0 阅读:0
汉唐天云商业说

汉唐天云商业说

感谢大家的关注