英伟达发布6.3万亿Token大型AI训练数据库Nemotron-

许攸评体育啊 2025-01-13 23:36:54

英伟达发布 6.3 万亿 Token 大型 AI 训练数据库 Nemotron-CC

据英伟达官方博客,英伟达宣布推出一款名为 Nemotron-CC 的大型英文 AI 训练数据库,总计包含 6.3 万亿个 Token,其中 1.9 万亿为合成数据。

英伟达声称该训练数据库可以帮助为学术界和企业界进一步推动大语言模型的训练过程。

目前,业界各类 AI 模型的具体性能主要取决于相应模型的训练数据。

然而现有公开数据库在规模和质量上往往存在局限性,英伟达称 Nemotron-CC 的出现正是为了解决这一瓶颈,该训练数据库 6.3 万亿 Token 的规模内含大量经过验证的高质量数据,号称是“训练大型语言模型的理想素材”。

数据来源方面,Nemotron-CC 基于 Common Crawl 网站数据构建,并在经过严格的数据处理流程后,提取而成高质量子集 Nemotron-CC-HQ。

0 阅读:9
许攸评体育啊

许攸评体育啊

感谢大家的关注