人工智能第二波很快会到来,昨天grok说他超过了gpt与deepseek
梁文锋团队开始正面回应马斯克了。发布了重磅论文。
DeepSeek称,NSA是一种可原生训练的稀疏注意力机制,
它将算法创新与硬件对齐优化相结合,
以实现高效的长上下文建模。
在64K长文本场景下,
NSA实现解码速度提升11.6倍、前向传播9倍加速、反向传播6倍加速。
这里核心技术是什么呢?
第一个叫动态分层稀疏策略,就是既能理解上下文,而且还能保持局部的精准性,顾得了全局,也能顾得了全部。
第二个,通过算术强度平衡的算法设计和硬件优化,还减少预训练计算量。
你说这玩意气不气人。水平的上来了,计算量还减少了。相比。grok的取胜,还是20万块英伟达的高端gpu在起作用。
目前NSA的表现均能达到甚至超越传统全注意力模型的水平,其以性价比极高的方式,
NSA使模型能够直接处理整本书籍、代码仓库或多轮对话,
也就是一千轮的谈话,他已经能知道谈话的重点是什么。而且,现在他的学习能力,已经可以整本书进入精准的学习,这种速度怕是grok也是不可能有的。人智能力是中文理解能力。大逻辑是不一样的。说不定今天人工智能就要开始修复了。这个方向是今年炒作的重点。
特别是浙江的企业,格外吃香。大冢说,人工智能何时再重新启动? 股票[超话] 财经[超话] 今日看盘[超话] A股[超话]