Deepseek是个蒸馏模型*,蒸馏的意思就是拿模型生成的数据去训练新模型,这

宇宙故娱乐 2025-02-04 12:26:56

Deepseek 是个蒸馏模型*,蒸馏的意思就是拿模型生成的数据去训练新模型,这意味着他要进步只能等着别人进步。这也是为什么 DS 的训练成本如此之低的原因,他本质上不是0号始祖模型。传说 OpenAi、Claude*和谷歌手里都有一个秘密的超级能力的0号始祖模型不放出来,我们现在能用到的这些什么40、sonnet*和 gemini,都是他们手里的那个秘密的0号始祖模型蒸馏出来的。 当然,Deepseek 非常厚道,他们的模型是MIT 条款的,意味着可以随意商用,打掉世界大模型的价格,功不可没。

DS最主要的就是算法蒸馏,而不是数据蒸馏,这点同硅谷的其他AI公司依赖数据蒸馏来提升性能的思路差别很大。首先,DS建立了一个大模型所需要的算法集合框架,将各阶段可能选用的算法整理出来,通过GPT之类的大模型对大量算法研究论文进行阅读和辅助分析,寻找满足最低资源开销和最佳运营效率的已知算法,然后,通过分析算法找到关键点从而通过拼凑各种算法闪光点的方式建立自己的算法,然后通过试错运行对算法进行打磨,最终构建出符合自己需要的算法,然后,在大模型的整个框架内每个算法都如此,逐步建立了DS,在这个过程中,构建整个模型结构框架的人是核心,但是,利用其他大模型辅助分析和比较现有算法和进行算法关键点分析也是一个创举,节约了大量人力资源和时间,至于最后的数据蒸馏,那只是算法蒸馏过程留下的痕迹。

0 阅读:890

评论列表

解构剖析

解构剖析

15
2025-02-04 13:36

deepseek的亮点在于显存需求的降低,不懂别乱说

三生石

三生石

7
2025-02-04 18:01

到现在也没拿出证据啊,只是猜测

Thinksoso

Thinksoso

4
2025-02-04 22:08

一个蒸馏出来的ai小编。。。

真实世界研究

真实世界研究

4
2025-02-07 14:14

确实是从gpt蒸馏出来的。但是从R1开始就开始自动推理生成新数据了, 也就意味着未来不必再这么依赖gpt了, 可以自己进化

月淡风清

月淡风清

3
2025-02-04 21:30

你懂个。。

娇子牌香烟

娇子牌香烟

3
2025-02-22 23:54

一个不聪明的人指责比他聪明的人说道:你蒸馏了我的智慧?

天高云淡

天高云淡

2
2025-02-23 18:39

随他去吧 如果七千年另一种物体将把王国建立 我们也没什么好奇怪的 人生太累 再不来了!

宇宙故娱乐

宇宙故娱乐

感谢大家的关注