DeepSeek的开源周还有One More Thing !
官方刚发了篇长文,详细介绍了DeepSeek-V3 / R1 推理系统,包括优化策略和技术架构,太太Open了!这次是中英文版。
中文:zhuanlan.zhihu.com/p/27181462601
英文:github.com/deepseek-ai/open-infra-index/blob/main/202502OpenSourceWeek/day_6_one_more_thing_deepseekV3R1_inference_system_overview.md
文章详细介绍了 DeepSeek-V3 / R1 推理系统的优化策略和技术架构。文章的核心目标是通过大规模跨节点专家并行(Expert Parallelism, EP)实现更高的吞吐量和更低的延迟。为此,DeepSeek 采用了多机多卡的专家并行策略,通过增加 batch size 提高 GPU 矩阵乘法效率,并通过分散专家计算降低延迟。文章还讨论了如何通过计算通信重叠和负载均衡优化系统性能,包括双 batch 重叠策略和针对不同阶段的负载均衡器设计。