中国一个这么小的科技公司DeepSeek,只有100多员工,而且都是中国大学生,

芷梦谈商业 2025-01-28 07:38:34

中国一个这么小的科技公司DeepSeek,只有100多员工,而且都是中国大学生,创造的大模型居然可以带崩整个纳斯达克,太牛了! 基金[超话]

模型亮点

● 架构与参数:DeepSeek-V3基于混合专家(MoE)架构,总参数量671B,激活参数量37B,在14.8T token上进行预训练。

● 性能表现:在多项国际权威评测中表现出色,如在中文知识评测C-eval中准确率达86.5%;美国数学竞赛AIME2024解题准确率39.2%,远超GPT-4o的9.3%;工程类代码场景SWE-Bench解决率达42%,逼近Claude-3.5-Sonnet-1022;支持128k上下文长度,长文本任务LongBench v2准确率48.7%。

● 速度提升:生成吐字速度从20TPS大幅提高至60TPS,相比V2.5模型实现3倍提升。

● 成本优势:官方API定价为输入token每百万最低0.1元、输出token每百万2元,对比OpenAI降低90%以上。

● 生态优势:无缝兼容OpenAI API,模型代码、技术报告及部署工具已在GitHub和Huggingface全面开放。

0 阅读:42
芷梦谈商业

芷梦谈商业

感谢大家的关注