讯飞星火与华为数据存储“以存强算”助AI集群算力利用率飙升30%

科技商业怎结合 2024-10-25 20:58:40

在风云变幻的AI大模型时代,科大讯飞与华为的联合拓展令人印象深刻。过去几年来,双方协同创新突破重重障碍,一次次证明国产算力基础设施可以支撑国产AI大模型良性发展,在关键性能和体验上不输世界领先玩家,同时具备更佳的成本效益。

10月24日,以“万物智联 生生不息”为主题的科大讯飞全球1024开发者节隆重举行。下午的央国企论坛上,科大讯飞与华为再度强强联手,共同发布讯飞星火&华为数据存储AI解决方案,将AI集群算力利用率提升30%,助力国产大模型创新突围,在业内树立起“以存强算”的又一标杆。

该AI存储解决方案通过华为OceanStor A系列全新硬件、讯飞星火基础大模型软硬协同,深度优化,可支持万亿参数大模型,大规模算力集群的训推任务,实现训推全流程加速,助力大模型算力利用率大幅提升,为业界输出了一份凝结双方技术与经验的标准方案。

极致性能“以存强算”,AI集群算力利用率提升超30%

根据规模定律(Scaling Law),更强的算力加上更多的有效训练数据,可以得到更好的AI大模型。这意味着,大模型的训练和推理不仅需要强大的算力支持,还需要高效的存储系统来保证数据的快速读写和处理,存储系统的性能直接影响到大模型的训练效率和效果‌。

为了解决大模型训练中的存储挑战,需要采用高性能的存储方案。例如,使用高性能NAS存储系统可以显著提高数据读写速度,减少训练过程中的等待时间‌。此外,优化存储架构和采用更适合大模型训练的存储解决方案,也可以提高训练效率‌。

此番发布的讯飞星火&华为数据存储AI解决方案,正采用了华为新一代OceanStor A系列AI存储,通过创新数控分离架构,高性能并行客户端,实现了百TB级带宽,百亿级IOPS,将训练集加载效率提升8倍,断点续训速度提升4倍,最终使得AI集群算力的利用率提升了超过30%。

资料显示,随着大模型集群规模增长,集群的算力利用率并未同步提升,千卡以上大模型算力利用率不足50%。而科大讯飞联合华为搭建的大规模AI集群,算力利用率常年保持在60%以上的高位,大幅领先于业内水平,背后的支撑之一正是华为数据存储提供的高性能存力底座。

超大规模调度,AI数据湖让大模型数据全局可管可用

在追求存储性能的同时,存储容量也是大模型存力底座的关键。随着AI技术快速发展,AI大模型从单模态发展到多模态,短短数年时间大模型训练的数据量已呈现1000倍的增长,亟需为AI算力集群建设AI数据湖,规模扩展并打破数据烟囱,实现全局流动可管可用。

大模型训练需要处理的数据通常以图片、文档等小文件的形式存在,传统的存储系统面对这些小文件存在加载速度慢的问题,影响训练效率‌。企业拥抱大模型首当其冲便是要对这些海量多源异构数据进行高效管理,做好数据归集、预处理等准备工作,才能保障大模型训练的效率及效果。

在这个维度,华为新一代OceanStor A系列AI存储具备无损多协议互通、冷热数据智能分级专业存储能力,支持512控横向大规模扩展能力,支持EB级存储空间;通过使用统一的AI数据湖存储大模型数据,可实现冷热数据分级存储,跨越数据孤岛,打破数据界限,确保了模型内数据的高效流动,为大模型训练做好充分的数据准备。

伴随着讯飞星火&华为数据存储AI解决方案的发布,讯飞星火训推平台的AI数据湖成功经验也浮出水面。据介绍,经过多轮技术迭代演进,讯飞建设AI数据湖底座,有效支撑了十万亿参数级别的通用多模态大模型训练,并大幅提升了集群算力利用率。

技术与经验深度耦合,构建AI Ready的数据基础设施

值得注意的是,此次发布的讯飞星火&华为数据存储AI解决方案并非双方的“即兴之作”,此前双方便在存算分离、统一存储平台等方面展开了合作。随着大模型持续演进,两家又于去年7月正式启动AI存力底座的联合创新项目,旨在共同打造面向AI大模型场景的最佳数据存储解决方案。

实际上,在驱动AI发展的三驾马车中,随着算力逐渐趋同、算法加速收敛,蓬勃发展的数据成了影响大模型效果的核心要素。业界也逐渐意识到,数据规模和质量决定AI智能的高度,为了提升从数据获取、数据预处理、模型训练、推理应用的AI全流程效率,消除数据孤岛带来的海量数据搬迁,一个高性能、稳定可靠的统一存力底座是必不可少的基石。

为此,科大讯飞在依托全国产化算力平台打造讯飞星火认知基础大模型时,也基于大模型数据和训练闭环全流程设计、训练和推理一体化设计的思路,自研超大规模大模型训练平台,迭代升级自家的大模型,先行先试趟出了一条探索Storage for AI、构建AI Ready的数据基础设施的“讯飞之道”。

资料显示,在讯飞大模型训练平台的加持下,讯飞星火大模型历经数个版本的升级,目前已在文本生成、语言理解、知识问答、逻辑推理、数学能力、代码能力、多模交互7大核心能力维度实现全国领先,通过中国信通院AIGC大模型基础能力评测并获得4+级的高评分,部分能力更是全面超过OpenAI的最新模型GPT-4 Turbo。

实践出真知,相信这种源自讯飞星火与华为数据存储双方的技术与经验,深度耦合而“孵化”出来的AI存储解决方案,必将能够加速AI Ready的数据基础设施建设,为客户带来高性能、高扩展和更智能的AI训推体验,推动AI产业发展,将AI大模型的算力真正转化为企业组织的新质生产力!

0 阅读:3