清华大学在DeepSeek-671B全量版运行上的最新突破：过去需要8张H

啊健说科技 2025-02-20 20:00:48

清华大学在DeepSeek - 671B全量版运行上的最新突破：过去需要8张H100显卡，成本几百万，现在只用一张4090显卡，成本六万出头，就能跑起来。效率提升28倍！这是什么概念？普通用户也能用4090显卡跑大模型了！算力门槛一下就被拔平了！想搞AI的中小团队、个人开发者有救了！

牛的是清华又双叒叕突破了！这次他们提出了创新性的CPU+GPU混合架构，把400G缓存放进了内存里！不需要那么多显卡集群，也能跑大模型！这种算法和模型结合的方法，极大地提升了算力使用效率，也极大地降低了AI的算力门槛。

只要思想不滑坡，办法总比困难多。

1 阅读：22905

评论列表

抬头看路

2025-02-21 08:27

你什么4090，一张六万多？？？开发票了？[哭着笑][哭着笑][哭着笑]

song 回复 02-27 10:24
一张4090就够了，机箱都不要。[doge]

凋零向日葵 回复 02-27 16:12
对于企业用户，400G内存不是啥难事，现在服务器服务器配256-512G内存难度不大

bydagl

2025-02-21 04:11

慢

简约时尚风格 回复 02-21 10:43
你不看成本吗？综合收益呢？

枯萎的野草 回复 02-21 11:08
以前玩不起，至少有得玩

哇哦

2025-02-21 15:07

只要不需要算力可以解决，就解决算力问题的时间可以拉长，芯片升级时间不会拖ai的后腿

化身孤岛的鲸_幺

2025-02-21 02:26

我记得测过，大概得3张吧？哪里的消息，有出处么？因为太吃显存了，一张估计出不来字，3张出字都不快。

psymerlin 回复 02-21 09:55
这个好像需要新的CPU统一内存和显存架构，类似苹果的一种架构，把内存和显存整合了。

psymerlin 回复 psymerlin 02-21 11:06
如果以前CPU架构也可以，我都准备加到1T测试下了

2025-02-21 09:54

蒸馏GPT的工业垃圾

汤姆哈迪 回复 02-27 17:19
你以为蒸馏是蒸馒头呢

戈比劳王 回复 02-27 10:23
你能再说出关于蒸馏技术哪怕一个字我倒立吃食

彳亍而行

2025-02-21 18:49

穷则战术穿插，富则火力覆盖

用户10xxx04

2025-02-21 06:43

权宜之计，不能沾沾自喜

韶华几曾

2025-02-22 07:24

每秒token数肯定跟纯显方案没得比

惠源商贸

2025-02-21 10:56

这么搞你们是想彻底把美国佬的根儿给刨了哇，个老流氓不跟你们拼命才怪

樱花舞兮云飞扬

2025-02-21 11:18

一张4090效率是8张H100的28倍[捂脸哭]

般若波罗蜜 回复 02-26 05:56
cpu部分的新算法比之前的llama.cpp的纯CPU算法快28倍。主要是稀疏矩阵乘法的优化。

vivienne 回复 般若波罗蜜 02-26 15:37
你和我解释科普这些没意义。

伏羲

2025-02-21 09:31

真以为这种部署方式能用啊？慢到你想死

灿烂时空 回复 02-21 20:00
吃早餐提问吃无饭时出结果

bingo

2025-02-21 07:53

400b的都要400显存，而且慢成申公豹[doge]

寻:::::::

2025-02-22 07:02

让这货解一下数学难题就行

wdkbaby

2025-02-27 12:54

前提是人家大模型的运算结果要允许你收集吧，说白了就是一台边缘服务器，没有核心服务器的数据，就一堆废铁！

酒后暴打丈母娘

2025-02-21 19:18

放屁，4090部署个21b都慢的一比，671根本跑不了

逍遙

2025-02-22 19:34

当下主流的家用电脑就可以跑了，也不用很大的内存，只要设置虚拟内存就行了。

般若波罗蜜 回复 02-26 06:02
大哥不嫌卡啊。内存64位乘以2G主频，一秒16GB的吞吐率。虚拟内存是硬盘实现的，比内存慢百倍啊。你是想一天出一个token？

逍遙回复 般若波罗蜜 02-27 14:31
慢点就慢点呗，主打一个省钱

jdbrjejdbfd

2025-02-24 12:05

ai这玩意个人玩玩的话最多搞到70b就差不多了 671b那不是给个人玩的

赛博情报官

2025-02-21 13:38

每秒多少tokens咋不提？1.58b量化的671b满血我自己也部署过，输出慢的一逼不说还是残血

灿烂时空 回复 02-21 19:59
暂时我看到所有都是龟速想上吊的龟速直接免费用GPT3.5就行了

用户16xxx32

2025-02-22 17:49

64的内存条来8根。

天剑

2025-02-21 19:40

天天网络繁忙是什么原因

用户18xxx20 回复 02-22 09:55
付钱买api就不会繁忙了

般若波罗蜜 回复 02-26 06:00
服务器限流。他们公司不是正规的互联网公司，服务器有限，做了限流。

Simon

2025-02-21 18:39

西方标准也是可以突破的，不能墨守成规！

到处转转

2025-02-21 12:37

不是一张4090吧，就算8卡跑671确实有点慢[哭笑不得][哭笑不得][哭笑不得]

℃冰

2025-02-21 12:22

,你们都是怎么用的每次打开只能问一个问题再问就是服务器繁忙

九个太阳

2025-02-21 09:58

不考虑数据通过总线的损耗，就光DDR5到GDDR7之间的差距也得慢100倍不止吧？再一个算力也不是一个次元的。

看不见的风景

2025-02-21 20:57

然后又跑到大漂亮去了，这是清华的一贯作风

紫气东来

2025-02-22 15:23

搞死英伟达的节奏啊

圆滚滚与胖嘟嘟

2025-02-21 21:42

能不能做个共享算力平台，根据在线时间，网络，cpu显卡算力来给点费用，这样全国闲置电脑能不能干掉银河服务器！也省了各个企业组建服务器阵列的费用！能实现吗？

梦一回╭♀丶 回复 02-22 08:14
挖矿[哭笑不得]

伊狼啸月

2025-02-22 21:53

q4量化的，精度降低

jlspng

2025-02-21 23:26

中国人聪明

灿烂时空

2025-02-21 19:58

我看到那么多所有吹嘘deepseek 低成本本地部署——都是运算速度超慢的

青龙王

2025-02-21 16:12

哇偶，只要六万嗳，不过兄弟们肾都给女神经换了苹果手机了，再拿什么换呢？[滑稽笑]

甜湿四

2025-02-21 14:03

AMD最近把高内存调动成高显存，这就不需要占用昂贵而且量少的显卡显存。

ILNBA

2025-02-21 09:37

看来还是读书多一点的好[红脸笑]

爱吃花的大猫

2025-02-21 09:58

清华。。呵呵，只会跟在人后，拾人牙慧

用户33xxx72

2025-02-21 11:17

我一个电脑盲都知道，算法肯定在cpu和内存就可以实现，用gpu搞计算不是长久之计。

DDK 叶哥 回复 02-25 00:53
CPU和GPU各有所长，但实际大语言模型，理论上用LPU更合适。英伟达多年布局CUDA，在软件应用上占有绝对优势。

般若波罗蜜 回复 02-26 05:59
不是一万，是十六万三千多，但是实际是公用一个显存，略微等待一点。等效于十万个乘法器去打x64的CPU里面加速指令的512个乘法器。

1234567

2025-02-22 09:42

清华捡浙大的饭吃

瘸腿泰迪

2025-02-24 13:26

速度呢

爱吃糖的文哲桑

2025-02-24 18:38

但100跑能更好的话，都还是全想用！

鎏金哇开呀酷烈！

2025-02-21 17:04

丢内存里就行，连系统一起

A听众

2025-02-24 21:55

清华北大几十亿的研究经费干什么去了？？就会修改别人的东西。

用户11xxx73

2025-02-23 08:31

标题党。你一觉睡醒电脑还卡着不动呢

啊健说科技

科技资讯，每天更新

作者最新文章

李马特是什么人物啊？最近，李马特在一家苹果专卖店闲逛，一不留神，竟然运气爆棚

凡是和华为合作的汽车都火了。华为＋赛力斯：问界火了；华为＋奇瑞：智界火

OPPO你在搞什么，昨晚睡了一觉，今天起来看到手机提醒有系统更新了，我就迷迷糊糊

马云：阿里巴巴创始人，在他的手里诞生了支付宝，淘宝，闲鱼，蚂蚁金服；

不看不知道，一看吓一跳！ 2025年备受欢迎的三款高端手机 1、苹果16 2

市场上最被看好的五款手机排名： 1、华为：技术实力强大 2、苹果：硬件设计出色

Google调整Android开源政策，核心开发全面转向私有分支！如果开源程度能

一夜醒来！苹果沉默了！谷歌沉默了！鸿蒙用户突破8亿！鸿蒙5五大有不同！

中国手机五大巨头占比市场份额排名：第一，Vivo（维沃）市场份额19.2%；

越来越服雷军了！万万没想到，我2022年底买的平价红米k60，跟华为新出的Pu

热门分类

推荐热榜军事 NBA 体育社会明星八卦娱乐财经科技汽车历史国际游戏动漫公益搞笑商业互联网数码国际足球房产家居时尚科学探索职场育儿股票教育影视情感热点中国军情武器中国南海中国足球亚洲杯科比综合体育 CBA 投资楼市大咖秀外汇创业风口 SUV 豪车概念车优惠新能源美国欧洲朝日韩俄罗斯孕期街拍恋爱攻略婚姻正能量

科技TOP

安卓闭源了，中国手机厂商末日来临？华为鸿蒙崛起？突发大新闻，谷歌终于对安卓下

最新港版三星手机系列价格更新，港版都是激活的，大家要切记三星手机

雷军小米YU7樱花照人家拍车自己买的，雷总拍车自己造的[捂脸哭]太全面了，这么早起

有没有注意到海尔老板的领带上都是空调、洗衣机，双开门冰箱，细节满满。

买iPhone16的是不是肠子都悔青了？

2025年最值得买的手机，你选哪个

某搜索已经很久不用了，还有好几个几乎就胎死腹中了。李开复说的可能是对的！

为什么美女的手机没有摄像头？

2025目前最强的六款旗舰手机，就差即将发布的蓝厂的X200Ultra了，会否

雷军到底投了多少家企业，看看这个版图，不比马斯克小了。

科技最新文章

大爷喊话苹果公司：“能不能出一个2TB的iPhone16ProMax手机

安卓闭源了，中国手机厂商末日来临？华为鸿蒙崛起？突发大新闻，谷歌终于对安卓下

库克现身杭州我又发现了这两个细节严重怀疑这两个人是约好的吧！不仅都穿了黑衣服

苹果CEO库克2025年3月26来到浙江杭州，看这画面就知道是西湖旁边了。当天，

2025目前最强的六款旗舰手机，就差即将发布的蓝厂的X200Ultra了，会否

4月值得关注的四款手机，有你感兴趣的吗？1、红米turbo4pro，在性

华为Mate80可能要成为热门手机，据最新信息显示，华为Mate80带着新技术

据说华为mate80会采用16：9的屏幕，如果是真的，那真是太好了。大家都知道

贾跃亭为什么能一直融到钱？贾跃亭这么多年一辆车都没上路，但是融资确是一轮接一轮

一加，你是真让我觉得陌生！！一加用户这回真麻了。。。新款一加13T暂定4

清华大学在DeepSeek-671B全量版运行上的最新突破：过去需要8张H

如果说deepseek是给英伟达的当头一棒，那清华团队的ktransformer

图一据论文显示DeepSeek-V3开源基础模型的训练在2048块英伟达H800

笑不活了[捂脸哭]deepseek这简直是杀人诛心啊！美国网友问deepseek靠

欧洲流过来的5090显卡，支撑AI小模型美国英伟达对中国关上了大门，4090

回顾周三舆情热度：①算力/云服务-DeepSeek作为开源AI大模

最近接了个小单子，赚了200元。帮深圳一家公司的电脑成功部署了deepseek模

家人们，大瓜来了！显卡界上演“无间道”，英伟达H100被爆自带“自毁程序”，大厂

美国一觉醒来发现，Deepseek并不是最大的敌人。西方和欧洲也傻眼了，因为他们

清华大学在DeepSeek-671B全量版运行上的最新突破： 过去需要8张H

清华大学在DeepSeek-671B全量版运行上的最新突破：过去需要8张H