【#DeepSeek到底取得了哪些突破#,#深度复盘DeepSeek如何引起全球

总财 2025-02-05 12:40:12

【#DeepSeek到底取得了哪些突破#,#深度复盘DeepSeek如何引起全球技术圈恐慌#】DeepSeek是一家位于杭州的大模型公司,2023年才创立。2024年年中之前,这家公司并没有引起市场多少关注。但2024年最后一个月,它密集发布了多个模型。其中圣诞节后发布的名为DeepSeek-V3(以下简称「V3」)的模型,宣称在性能上「相当于」业界领先的闭源模型GPT-4o与Claude-3.5-Sonnet,「优于」最好的开源模型Meta的Llama 3,且总训练成本仅为557.6万美元,这个数字只有(据估计投资超过5亿美元)前者的1%;临近2025年农历春节的1月20日,它又发布了一个名为DeepSeek-R1(以下简称「R1」)的模型,同样的,DeepSeek在论文中声称R1模型「在一系列任务上实现了与OpenAI o1相当的性能」。

如果只有V3的效率,DeepSeek可能并不能引起足够注意。1月20日发布的R1模型为DeepSeek的热度添了重要的一把火——这是一个类o1的推理模型,并且即刻就能在应用程序中体验到。与ChatGPT等其他聊天机器人的不同之处在于,DeepSeek的同名聊天机器人在回应用户提问时,会将思维链条(Chain of Thought,CoT)完全展示出来,其作为机器人认真揣摩用户需求、试图将用户所有说出口或隐晦表达的情绪都安慰到位的「内心活动」激发了大量用户的热情。商业的本质在于创造稀缺,无论在人类成员还是AI成员中,共情能力都是稀缺品。

DeepSeek的突破来自于两个层面:低成本和推理能力。其中,V3的突破主要在于训练成本和计算效率,R1开辟了训练推理模型的新路径。(第一财经YiMagazine)#DeepSeek招聘实习生月薪过万#

0 阅读:1
总财

总财

每天第一手财经新闻