关于幻方的De­e­p­s­e­ek模型

悲伤小土豆 2024-12-30 11:32:59
关于幻方的De­e­p­s­e­ek模型,目前看到的各位业内大佬在群里的回复: A:幻方这消息纯粹就是断章取义。训练一个671B的moe模型,而且用了fp8的架构,来达到gpu耗时数的下降,幻方在技术上确实牛。 但幻方在训这个模型之前,是用了他们自己的r1模型(对标op­e­n­ai o1模型)来生成数据的,这个部分的反复尝试要不要算在成本里呢。 且不算前面那笔糊涂账,单就在训练上做降本增效这件事,这不代表推理需求会下降, 只代表大厂可以用性价比更高的方式去做模型极限能力的探索。应用端只要有增长的逻辑,推理的需求依然是值得期待的。 B:-训练只有一次,推理是无数次。推理需求实质上远大于训练需求,尤其是用户基数大了。 De­e­p­s­e­ek是站在巨人的肩膀上,使用大量高质量合成数据。 De­e­p­s­e­ek这个统计口径只计算了训练,但数据的配比需要做大量的预实验,合成数据的生成和清洗也需要消耗算力。 De­e­p­s­e­ek的模型的MoE每个专家都可以单独拿出来训练,本身相比于de­n­se架构就是省力一些的方案。 人人都超越了GPT 4o,ll­a­ma 3天天被踩在脚底下,消费者和企业界实际使用用的最多的还是这两个模型。这些宣传的成绩未必可靠。 C: 1,FP8的训练本身就不怎么耗资源,而且DS这个是“设定”好的大模型训练,就是已经限定了大模型的能力,这样减小了很多不必要的消耗。 2,Op­e­n­AI和An­t­r­o­p­ic这样的在训练新东西、新能力,走弯路的消耗量可能百倍千倍于最后那个正确路径。 就好像看过几遍答案,水平很一般的学生也能在1小时内把高考数学卷整出满分,或者接近满分。 一份试卷做过越多次,速度越快,搞不好30分钟就能满分…DS这个模型加入了很多“设定”因素,就是知道这样有效,有利于提高推理能力。 3,模型能力追求的是“通识能力”,为了能考个好成绩,该读的3年书谁也躲不过,现在算力和数据无非就是想卷这个时间缩短。 大模型通识能力上限太高了,卷算力才刚开始,谁犹豫,谁质疑,谁掉队。 4,另外就是多模态和具身智能的接口。GPT-5难产有个很重要原因就是GPT-5要有开放机器人模态的潜在能力, 就是能处理物理世界数据。这玩意儿也是全新的,超越了现在大模型的能力。#De­e­p­s­e­ek模型
0 阅读:8
悲伤小土豆

悲伤小土豆

每天分享社会新闻,欢迎留言讨论!