中国一个这么小的科技公司DeepSeek,只有100多员工,而且都是中国大学生,创造的大模型居然可以带崩整个纳斯达克,太牛了! 基金[超话]
模型亮点
● 架构与参数:DeepSeek-V3基于混合专家(MoE)架构,总参数量671B,激活参数量37B,在14.8T token上进行预训练。
● 性能表现:在多项国际权威评测中表现出色,如在中文知识评测C-eval中准确率达86.5%;美国数学竞赛AIME2024解题准确率39.2%,远超GPT-4o的9.3%;工程类代码场景SWE-Bench解决率达42%,逼近Claude-3.5-Sonnet-1022;支持128k上下文长度,长文本任务LongBench v2准确率48.7%。
● 速度提升:生成吐字速度从20TPS大幅提高至60TPS,相比V2.5模型实现3倍提升。
● 成本优势:官方API定价为输入token每百万最低0.1元、输出token每百万2元,对比OpenAI降低90%以上。
● 生态优势:无缝兼容OpenAI API,模型代码、技术报告及部署工具已在GitHub和Huggingface全面开放。