IT之家11月28日消息,月之暗面Kimi和清华大学MADSys实验室2024年6月联合发布了Kimi底层的Mooncake推理系统设计方案。该系统基于以KVCache为中心的PD分离和以存换算架构,提升了推理吞吐量。
近日,为了进一步加速该技术框架的应用与推广,月之暗面Kimi和清华大学MADSys实验室联合9#AISoft、阿里云、华为存储、面壁智能、趋境科技等共同发布开源项目Mooncake,共建以KVCache为中心的大模型推理架构。
11月28日,Mooncake技术框架已开源上线,IT之家附地址如下:
据介绍,Mooncake开源项目从论文延伸,以超大规模KVCache缓存池为中心,通过以存换算的创新理念大幅度减少算力开销,提升了推理吞吐量。
本次开源将采用分阶段的方式,逐步开源高性能KVCache多级缓存MooncakeStore的实现,同时针对各类推理引擎和底层存储/传输资源进行兼容。其中传输引擎TransferEngine部分现在已经在GitHub全球开源。
Mooncake开源项目的最终目标是,为大模型时代打造一种新型高性能内存语义存储的标准接口,并提供参考实现方案。