DeepSeek最新论文介绍新机制可使AI模型进一步降本增效2月18日,Dee

晓凡说商业 2025-02-19 09:17:06

DeepSeek最新论文介绍新机制 可使AI模型进一步降本增效

2月18日,DeepSeek团队发布一篇论文介绍了新的注意力机制NSA,NSA专为长文本训练与推理设计,能利用动态分层稀疏策略等方法,通过针对现代硬件的优化设计,显著优化传统AI模型在训练和推理过程中的表现,特别是提升长上下文的推理能力,在保证性能的同时提升了推理速度,并有效降低了预训练成本。

AI办公:金山办公、合合信息、福昕软件、彩讯股份、致远互联

0 阅读:6
晓凡说商业

晓凡说商业

感谢大家的关注