富士通使用富岳超级计算机训练LLM

袁遗说科技 2024-05-12 04:53:05

本文由半导体产业纵横(ID:ICVIEWS)综合

在Monaka之前,富士通使用Fugaku来训练LLM。

尽管富士通的富岳超级计算机不再是超级计算机500强名单中最快的机器,但它仍然是一个非常强大的系统,A64FX处理器的多功能性允许将其用于各种工作负载,例如AI。本周,富士通发布了Fugaku-LLM,这是一个具有高级日语处理能力的大型语言模型,专为研究和商业应用而设计。

富士通的Fugaku-LLM在富岳超级计算机的13,824个节点上使用3800亿个符记进行训练,该超级计算机基于A64FX处理器,支持FP64、FP32、FP16和INT8模式,适用于各种AI和传统超级计算机应用。Fugaku-LLM的训练利用了针对超级计算机架构和互连优化的分布式并行学习技术。

Fugaku-LLM 有 130 亿个参数,与 GPT-4 的 1750 亿个参数相比显得苍白无力,不过,Fugaku-LLM是日本有史以来训练量的最大 LLM。富士通表示,其130亿参数的LLM不需要大量的计算资源来推理,这对日本的企业和研究人员来说是最佳选择。大约 60% 的训练数据是日语,40% 的数据是英语、数学和代码数据。

这种广泛的以日语为中心的训练使其有别于其它主要在英语数据集上训练的日语模型。因此,Fugaku-LLM拥有卓越的日语水平,在日语MT-Bench上获得了5.5的平均分,这是使用日本原始数据训练的公开可用模型中的最高分。根据富士通的数据,它在人文和社会科学方面尤其出色,取得了令人印象深刻的 9.18 分的基准分数。

Fugaku-LLM计划是由东京工业大学、东北大学、富士通株式会社、RIKEN、名古屋大学、CyberAgent和Kotoba Technologies等日本领先机构之间的合作推动的。他们合作的原因之一是通常用于训练和推理 AI 模型的 GPU 短缺。另一个原因是,该模型可以与富士通的下一代 150 核 Monaka 数据中心 CPU 一起使用,该 CPU 针对 AI 和 HPC 工作负载进行了优化。

Fugaku-LLM现在可以在GitHub和Hugging Face的指定许可条款下用于学术和商业目的(尽管富士通没有提供任何链接)。此外,它还将从2024年5月10日起通过富士通研究门户网站提供。

富岳超级计算机简介

富岳(Supercomputer Fugaku)是富士通与日本理化学研究所共同开发的超级计算机,作为“京”的后继机型。2014年开始研发,2021年正式激活。富岳部署在兵库县神户市中央区港湾人工岛上的理化学研究所计算科学研究中心内,其运算能力为京的100~120倍,耗电为30百万~40百万瓦,京的耗电为12.7百万瓦。“富岳”是富士山的别称。

富岳是全球首度夺冠的ARM架构超级计算机,采用富士通48核心A64FX SoC,与过往超级计算机大多采用的Intel或AMD的x86、x64主流平台不同。富岳共有158,976个节点,尖峰性能可达到1 exaFLOPS(1,000 petaFLOPS)。富岳除了在Linpack中拿到好成绩,也在HPL-AI中获得1.421 exaFLOPS。

2020年6月23日,富岳正式获认证,以415 PFLOPS计算速度成为TOP500排名第一的超级计算机。之后同年11月17日发表的TOP 500排行榜成功蝉联第一。

2023年5月22日,日本东京工业大学、富士通、理化学研究所和东北大学宣布将利用“富岳”于研发日语生成式AI。未来,两家机构将共同构建以日语为中心的基础技术,从2024年开始向日本国内企业无偿提供。日本此举是为了与美国相抗衡,研发自主技术,避免美国OpenAI和谷歌的生成式AI垄断市场。

官方表示,日本理化研究所和日本东北大学也将合作参与生成式AI的研发,自主开发作为生成式AI基础的大规模语言模型。这个项目的AI学习,将使用维基百科上公开的日语数据等资料,目的是提高日语对话能力。除此之外,该项目还将与日本最大的网络广告代理商CyberAgent合作,后者也在开发自主的生成式AI。

日经中文网表示,此前在日本,决定AI性能的语言模型参数往往仅为数十亿左右,CyberAgent于2023年5月17日公开的大规模语言模型最多为68亿个。作为对比美国OpenAI的GPT-3语言模型参数为1750亿。未来,东京工业大学等将构建具有1000亿左右参数的大规模语言模型。

富岳跌至全球超算榜第四

2023年11月,日本理化学研究所宣布,与富士通共同开发的超级计算机“富岳”在全球超算的运算速度排行榜“TOP500”中位列第四。在2023年5月发布的排行榜中,“富岳”曾排名第二,但被美国陆续推出的最先进超级计算机超越。

据悉,全球超级计算机性能排行榜由专家组成的国际会议组织每年公布两次。自2020年6月以来,“富岳”曾连续四次排名世界第一。在2022年5月被美国“前沿”摘得桂冠之后,连续三次排名第二。但由于美国多家研究机构陆续推出了最先进超级计算机,因此来自美国的超算占据了本次榜单前三名。

据报道,连续四次排名世界第一的“前沿”达到了每秒119.4京(1京为1万亿的1万倍)次的运算速度,而排在第四位的“富岳”为每秒44.2京次。

*声明:本文系原作者创作。文章内容系其个人观点,我方转载仅为分享与讨论,不代表我方赞成或认同,如有异议,请联系后台。

0 阅读:16