英伟达强势的崛起速度,让业界为之动容。资本市场为之痴狂。新一代AI技术的高性能芯片需求造就了一个新时代的启蒙开启。
有人把黄仁勋比作乔布斯。这是对一个新工业革命时代降临之后的盛誉,自然也是对新传奇的预期。
性能翻30倍的恐怖Blackwell芯片,我们曾经为摩尔定律为倾倒,如今,或许对于AI芯片的发展,注定了多了一份期许,这极有可能是一次新的超越,或许会奠定未来三十年的发展基业。
3月18日的GTC上,黄仁勋上台开始演讲,这场发布会在SAP中心进行,人们在百米长的队伍里要经过两个小时地检票和等待,才能进到演讲会场。
这里是硅谷很多演唱会和演出的举办地,占地4.2万平方米,曾举办过滚石和Bon Jovi演唱会、美国NHL全明星赛,而现在站在舞台中央的是黄仁勋,很容易让现场的许多开发者想到了乔布斯。
一场开发者大会,能有演唱会的效果,这不是一般的科技创业人能达到的效果。就如同相声演员在舞台上表演的相声,能达到演唱会的效果。这显然不是一般人能够达到这样的效果的。
没有持续的追逐力度,没有持续的影响力,没有持续的期待值,怎么可能有这样的火爆和热烈。
黄仁勋说。这是一场只有模拟而没有动画的发布会。“今天抵达GTC现场的公司们价值1 trillion。这么多伙伴,需要这么多的算力,怎么办?我们需要大得多的GPU。把所有GPU连接起来,成千上万个大的GPU里是成千上万小的GPU, 百万个GPU让你的效率提升!”
期待是对科技未来的向往,这是纽带,也是联系每一个节点的不可或缺的要素。虽然AI的提出已经很多年了,但也只有在OpenAI推出ChatGPT之后,尤其是GPT3.5和Sora推出之后,人们对AI能够做的工作有了更强烈的预期和紧迫感,而且各种大模型如雨后春笋一般地涌现出来,市场对于高性能芯片的需求度也爆棚了。
黄仁勋推出B200的时候,人们忍不住要惊呼了。这是Hooper后的新一代架构,以数学家Blackwell命名。
B200发布后,包括微软执行董事长兼首席执行官萨提亚·纳德拉、Alphabet和谷歌首席执行官桑达尔·皮查伊、亚马逊总裁兼首席执行官安迪·贾西等一众云服务厂商大佬纷纷站台支持。
特斯拉及xAI首席执行官埃隆·马斯克也不吝溢美之词:“当下的AI领域,英伟达硬件无可比拟。”大佬们的肯定也说明英伟达在AI芯片领域的绝对领先位置。
黄仁勋总结的Blackwell GPU的性能特点:高AI性能:B200 GPU提供高达20 petaflops的FP4计算能力,这是由其2080亿个晶体管提供的。高效推理:当与Grace CPU结合形成GB200超级芯片时,它能在LLM推理工作负载上提供比单个GPU高出30倍的性能,同时在成本和能源消耗上比H100 GPU高出25倍。
训练能力:使用Blackwell GPU,训练一个1.8万亿参数的模型所需的GPU数量从8000个减少到2000个,同时电力消耗从15兆瓦降低到仅四兆瓦。GPT-3性能:在GPT-3 LLM基准测试中,GB200的性能是H100的七倍,训练速度提高了4倍。
第二代Transformer引擎通过使用每个神经元的四位而不是八位,实现了计算、带宽和模型大小的翻倍。允许多达576个GPU之间进行通信,提供每秒1.8太比特的双向带宽。拥有500亿晶体管和3.6 teraflops的FP8计算能力,用于支持大规模GPU集群的通信。Nvidia的系统可以扩展到数万个GB200超级芯片,通过800Gbps的Quantum-X800 InfiniBand或Spectrum-X800以太网连接。
单个NVL72机架可以支持高达27万亿参数的模型。GB200超级芯片将两个B200 GPU与一个Grace CPU结合在一起,它能将成本和能源消耗比H100降低多达25倍。黄仁勋还强调,之前训练一个1.8万亿参数的模型需要使用8000个Hopper GPU和15兆瓦的电力。如今,使用2000个Blackwell GPU就可以完成相同的任务,同时仅需要4兆瓦的电力。
英伟达正在打包预训练模型及其附属延伸,并简化了称为NVIDIA推理微服务(NIMS)的微服务部署。这样可以让模型更易于实施和管理的平台。NVIDIA提供服务帮助企业和应用程序对模型进行微调或定制。
据悉,亚马逊、谷歌、微软和甲骨文,将成为首批提供Blackwell芯片驱动的云服务提供商。在这场发布会上,黄仁勋表达的很感慨,“如果你问我,心目中的GPU是什么样子,今天的发布就是我的答案。”“我们站在计算科学和物理等其他一切科学的交叉点”。“新的工业革命来了。”或许,黄仁勋时代也要来了。