谷歌拥抱英伟达！推出云端GPU，把AI引进无服务器

有点震惊，谷歌也开始拥抱英伟达的GPU了！

尽管有着自家的TPU，但为了更好地市场竞争，英伟达的GPU终究是绕不开（皮衣客黄教主尽情笑吧！）

近日，谷歌抖了大料：不仅推出了云端的GPU，把AI引进了Serverless，同时赠送了几个开源大模型以供开发者进行部署和微调。

这对开源大模型爱好者们而言是一个重大利好：省事更省钱了。

这相当于不管是硬件的算力，还是软件层面的大模型，谷歌直接给出了一个完整的全家桶，不必再苦于本地设备的能力不足，而不能体验性能领先的开源大模型了！在此基础上，开源开发者可以创建自己的Copilot、智能体等应用程序。

谷歌推出云端GPU，附带开源LLM

如果你热爱开源AI，但却没有在本地运行AI模型的计算能力，谷歌今天的消息的确令人兴奋。

据悉，谷歌正在将英伟达的L4 GPU引入其云服务。L4 GPU是H100 GPU的轻量级版本，曾用于训练Meta的Llama 3.1和OpenAI的GPT-4o模型。

开发者可以登录谷歌的Cloud Run，在容器中加载Ollama，启动开源LLM，如谷歌的Gemma 2或Meta的Llama 3.1，指向L4 GPU，然后进行推理。具体指令将在下文提供。

将 AI 引入无服务器世界

Cloud Run是 Google 的全托管无服务器平台，由于能够简化容器部署和管理，因此一直受到开发人员的青睐。然而，人工智能工作负载（尤其是需要实时处理的工作负载）的需求不断增加，凸显了对更强大的计算资源的需求。

GPU 支持的集成将为 Cloud Run 开发者开辟了广泛的用例，包括：

使用轻量级开放模型（例如 Gemma 2B/7B 或 Llama3 (8B)）进行实时推理，可以创建响应式自定义聊天机器人和即时文档摘要工具。提供定制的微调生成式 AI 模型，包括可根据需求扩展的品牌特定图像生成应用程序。加速图像识别、视频转码和 3D 渲染等计算密集型服务，并能够在不使用时扩展到零。

GPU的无服务器玩法

Google Cloud Run 无服务器产品现在集成了 Nvidia L4 GPU，使组织能够运行无服务器推理。

无服务器服务的承诺是，服务仅在需要时运行，用户只需为使用的内容付费。这与典型的云实例形成对比，后者将作为持久服务运行一段时间，并且始终可用。在这种情况下，无服务器服务只会在需要时启动和使用用于推理的 GPU。

无服务器推理可以部署为Nvidia NIM，以及其他框架（例如 VLLM、Pytorch 和 Ollama）。Nvidia L4 GPU 的添加目前处于预览阶段。

Google Cloud Serverless 产品经理 Sagar Randive 告诉 VentureBeat：“随着客户越来越多地采用 AI，他们正在寻求在他们熟悉并启动的平台上运行推理等 AI 工作负载。” “Cloud Run 用户更喜欢该平台的效率和灵活性，并一直要求谷歌增加 GPU 支持。”

运行无服务器 AI 推理会更便宜吗？

无服务器的一个常见问题是性能。毕竟，如果服务并非始终运行，那么仅仅为了让服务从所谓的冷启动运行，性能就会受到影响。

Google Cloud 旨在消除任何此类性能担忧，并引用了新的支持 GPU 的 Cloud Run 实例的一些令人印象深刻的指标。据 Google 称，包括 Gemma 2b、Gemma2 9b、Llama2 7b/13b 和 Llama 3.1 8b 在内的各种型号的冷启动时间范围为 11 到 35 秒，展示了该平台的响应能力。

每个 Cloud Run 实例均可配备一个 Nvidia L4 GPU，最高可配备 24GB vRAM，为许多常见的 AI 推理任务提供充足的资源。

Google Cloud 还计划在运行哪些模型方面做到与模型无关，不过它在某种程度上也采取了两面下注的做法。

“我们不限制任何 LLM，用户可以运行他们想要的任何模型，”Randive 说道。“但为了获得最佳性能，建议他们在 13B 参数下运行模型。”

无服务器的一个关键优势是更好地利用硬件，这也意味着更低的成本。

至于对于组织来说，以无服务器或长期运行的服务器方式提供人工智能推理是否实际上更便宜，这是一个有点微妙的问题。

“这取决于应用程序和预期的流量模式，”Randive 表示。“我们将更新我们的定价计算器，以反映 Cloud Run 的新 GPU 价格，届时客户将能够比较他们在各个平台上的总运营成本。”

终于，为开源社区提供服务

谷歌终于拥有了一个完整的硬件和软件包，开源开发者可以在此基础上利用开源模型创建应用程序。开发者可以完全控制前端和后端，并可以通过Cloud Run指向谷歌云中的L4。

到目前为止，Cloud Run服务仅限于谷歌的专有模型，包括Gemini 1.0 LLM、用于图像生成的Imagen以及用于多模态模型的Gemini 1.5 Flash。

现在，Cloud Run已经拥有了Gemma 2（Gemini的开源版本）和Llama 3.1。L4 GPU也是一个新增的功能，可用于在开源模型上进行推理。

在PC上本地运行LLM的替代方案

谷歌提供的服务避免了在PC上加载Ollama并本地运行LLM的繁琐过程。谷歌的Cloud Run可以在30秒内加载LLM和Ollama。

在大多数情况下，大多数PC都没有运行具有大上下文窗口的LLM所需的GPU。像LM Studio这样的应用程序已经可以实现下载LLM，并且该软件会显示这些LLM是否可以在本地GPU上运行，但这仍然需要时间。

Cloud Run上提供的最新模型包括拥有90亿参数的Gemma 2和拥有80亿参数的Llama 3.1。其他可用的模型还包括拥有130亿参数的Llama 2和拥有20亿参数的Gemma。

谷歌表示，配备L4 GPU的Cloud Run实例将在大约5秒内加载，之后还需要几秒钟的时间用Ollama初始化框架和模型。整个LLM的大小可达7.4GB，可以在几秒钟内完成下载和初始化。

最小的20亿参数的Gemma模型需要11到17秒，而最新的90亿参数的Gemma 2需要25到30秒。80亿参数的Llama 3.1需要15到21秒来加载。

关于定价：是否值得一试

谷歌尚未公布在L4 GPU上运行开源Llama和Gemma模型的定价。但根据目前的定价结构，在谷歌云上运行Gemma的成本很高，使用L4作为云GPU的起步价为516美元。

谷歌承诺每月免费提供两百万次请求，不过业内实际情况比较复杂，当几乎所有变量都考虑在内时，客户通常最终可能会选择支付费用。

时间就是金钱，而且你没有本地的处理能力，那么L4可能是最便宜的GPU选择；但如果你已经投资了一台配备顶级GPU的笔记本电脑，并且可以等待10到20分钟来下载、调整和加载LLM，那么还是坚持使用本地设备吧。

目前，Cloud Run GPU仅在谷歌位于美国中部1区（爱荷华州）可用，预计今年年底将在欧洲和亚洲上线。谷歌在一封电子邮件中表示：“我们未来可能会提供更多GPU选项，并扩展到更多地区。”

写在最后：

谷歌对待AI开发的玩法变了

要知道此前，开发者们一般是借用了谷歌Colab上可用的硬件来进行推理。这很简单，只需使用带有Python脚本的Jupyter笔记本，选择硬件（CPU、GPU或TPU），然后运行视频、图像、文本或语音AI应用程序。

免费层级原本仅供研究人员使用，因此有人认为这会导致一部分人在滥用这一资源。

所以，后来谷歌Colab最终取消了广泛的GPU访问权限的免费使用。大多数应用程序无法利用谷歌的TPU，而是默认使用CPU，这非常缓慢。

现在Colab上唯一提供的GPU是接近八年历史的英伟达T4。

不过，今天我们看到了Google似乎开始笃定的走上“GPU+无服务器”这条道路了，毕竟AI开发的需求已经毫无疑问地成为了新的增长引擎。