清华大学在DeepSeek-671B全量版运行上的最新突破: 过去需要8张H

啊健说科技 2025-02-20 20:00:48

清华大学在DeepSeek - 671B全量版运行上的最新突破: 过去需要8张H100显卡,成本几百万,现在只用一张4090显卡,成本六万出头,就能跑起来。效率提升28倍!这是什么概念?普通用户也能用4090显卡跑大模型了!算力门槛一下就被拔平了!想搞AI的中小团队、个人开发者有救了!

牛的是清华又双叒叕突破了!这次他们提出了创新性的CPU+GPU混合架构,把400G缓存放进了内存里!不需要那么多显卡集群,也能跑大模型!这种算法和模型结合的方法,极大地提升了算力使用效率,也极大地降低了AI的算力门槛。

1 阅读:14584

评论列表

37度暖风

37度暖风

82
2025-02-21 02:33

只要思想不滑坡,办法总比困难多。

哇哦 回复 02-21 15:07
只要不需要算力可以解决,就解决算力问题的时间可以拉长,芯片升级时间不会拖ai的后腿

随机 回复 02-21 13:04
这是两件事,算法的提高减少对硬件的要求这可以使中小企业也能进军 AI。第二硬件的算力也不可能因为算法提高也不去迭代。这完全不是一件事就像英伟达垄断的情况下难道就不迭代了?

bydagl

bydagl

31
2025-02-21 04:11

简约时尚风格 回复 02-21 10:43
你不看成本吗?综合收益呢?

枯萎的野草 回复 02-21 11:08
以前玩不起,至少有得玩

化身孤岛的鲸_幺

化身孤岛的鲸_幺

28
2025-02-21 02:26

我记得测过,大概得3张吧?哪里的消息,有出处么?因为太吃显存了,一张估计出不来字,3张出字都不快。

psymerlin 回复 02-21 09:55
这个好像需要新的CPU统一内存和显存架构,类似苹果的一种架构,把内存和显存整合了。

psymerlin 回复 psymerlin 02-21 11:06
如果以前CPU架构也可以,我都准备加到1T测试下了

抬头看路

抬头看路

27
2025-02-21 08:27

你什么4090,一张六万多???开发票了?[哭着笑][哭着笑][哭着笑]

用户10xxx83 回复 02-21 15:44
还要400g内存

fengpc 回复 02-21 19:13
400g内存的服务器主机比一张4090贵,这样混合部署比用8张h800慢很多很多

用户10xxx04

用户10xxx04

13
2025-02-21 06:43

权宜之计,不能沾沾自喜

C4

C4

10
2025-02-21 09:54

蒸馏GPT的工业垃圾

维信 回复 02-21 22:26
你合同没到期吗?你老东家国际开发署都关门了。

胡归农 回复 02-22 05:33
16亿美元经费都被马斯克搞没了,你还在干活啊?做狗也不用那么忠诚,骨头吃不到,起码屎要吃到吧?屎都没得吃还给美国佬干活,真有你的[滑稽笑]

彳亍而行

彳亍而行

9
2025-02-21 18:49

穷则战术穿插,富则火力覆盖

樱花舞兮云飞扬

樱花舞兮云飞扬

9
2025-02-21 11:18

一张4090效率是8张H100的28倍[捂脸哭]

bingo

bingo

5
2025-02-21 07:53

400b的都要400显存,而且慢成申公豹[doge]

惠源商贸

惠源商贸

5
2025-02-21 10:56

这么搞你们是想彻底把美国佬的根儿给刨了哇,个老流氓不跟你们拼命才怪

伏羲

伏羲

3
2025-02-21 09:31

真以为这种部署方式能用啊?慢到你想死

灿烂时空 回复 02-21 20:00
吃早餐提问 吃无饭时出结果

天剑

天剑

2
2025-02-21 19:40

天天网络繁忙是什么原因

momogo 回复 02-21 21:32
限制使用,同一台电脑,我换个账号又能用,但也是只能用一次

晨杰535cj 回复 02-21 20:22
应该是下载的人数实在太大了,然后他们内部的服务器负载支撑不了。 你可以用第三方的部署了deep seek的软件就没有任何问题

Simon

Simon

2
2025-02-21 18:39

西方标准也是可以突破的,不能墨守成规!

到处转转

到处转转

2
2025-02-21 12:37

不是一张4090吧,就算8卡跑671确实有点慢[哭笑不得][哭笑不得][哭笑不得]

℃冰

℃冰

2
2025-02-21 12:22

,你们都是怎么用的 每次打开只能问一个问题 再问就是服务器繁忙

九个太阳

九个太阳

2
2025-02-21 09:58

不考虑数据通过总线的损耗,就光DDR5到GDDR7之间的差距也得慢100倍不止吧?再一个算力也不是一个次元的。

看不见的风景

看不见的风景

2
2025-02-21 20:57

然后又跑到大漂亮去了,这是清华的一贯作风

酒后暴打丈母娘

酒后暴打丈母娘

2
2025-02-21 19:18

放屁,4090部署个21b都慢的一比,671根本跑不了

jlspng

jlspng

2
2025-02-21 23:26

中国人聪明

灿烂时空

灿烂时空

2
2025-02-21 19:58

我看到那么多所有吹嘘deepseek 低成本本地部署——都是运算速度超慢的

赛博情报官

赛博情报官

2
2025-02-21 13:38

每秒多少tokens咋不提?1.58b量化的671b满血我自己也部署过,输出慢的一逼不说还是残血

灿烂时空 回复 02-21 19:59
暂时我看到所有都是龟速 想上吊的龟速 直接免费用GPT3.5就行了

甜湿四

甜湿四

1
2025-02-21 14:03

AMD最近把高内存调动成高显存,这就不需要占用昂贵而且量少的显卡显存。

ILNBA

ILNBA

1
2025-02-21 09:37

看来还是读书多一点的好[红脸笑]

爱吃花的大猫

爱吃花的大猫

1
2025-02-21 09:58

清华。。呵呵,只会跟在人后,拾人牙慧

用户33xxx72

用户33xxx72

1
2025-02-21 11:17

我一个电脑盲都知道,算法肯定在cpu和内存就可以实现,用gpu搞计算不是长久之计。

灿烂时空 回复 02-21 19:57
CPU 2token/秒 上厕所前提问——上完厕所再看答案

目风 回复 02-21 23:54
GPU是并行运行,CPU是单流程运行

鎏金哇开呀酷烈!

鎏金哇开呀酷烈!

1
2025-02-21 17:04

丢内存里就行,连系统一起

圆滚滚与胖嘟嘟

圆滚滚与胖嘟嘟

1
2025-02-21 21:42

能不能做个共享算力平台,根据在线时间,网络,cpu显卡算力来给点费用,这样全国闲置电脑能不能干掉银河服务器!也省了各个企业组建服务器阵列的费用!能实现吗?

青龙王

青龙王

1
2025-02-21 16:12

哇偶,只要六万嗳,不过兄弟们肾都给女神经换了苹果手机了,再拿什么换呢?[滑稽笑]

啊健说科技

啊健说科技

科技资讯,每天更新