Sobre GPUs no Google Cloud

O foco do Google Cloud é fornecer infraestrutura de inteligência artificial (IA) de nível mundial para potencializar suas cargas de trabalho aceleradas por GPU mais exigentes em uma ampla variedade de segmentos. É possível usar GPUs no Google Cloud para executar aplicativos de IA, aprendizado de máquina (ML), científicos, analíticos, corporativos, de engenharia e de consumo.

Com nossa parceria com a NVIDIA, o Google Cloud oferece as GPUs mais recentes e otimiza a pilha de software com uma ampla variedade de opções de armazenamento e rede. Para acessar uma lista completa de GPUs disponíveis, consulte Plataformas de GPU.

Confira nas seções a seguir os benefícios das GPUs no Google Cloud.

VMs aceleradas por GPU

No Google Cloud, você pode acessar e provisionar GPUs da maneira que melhor atende às suas necessidades. Uma família de máquinas especializadas e otimizadas para aceleradores está disponível, com GPUs pré-conectadas e recursos de rede ideais para maximizar o desempenho. Eles estão disponíveis nas séries de máquinas A3, A2 e G2.

Várias opções de provisionamento

Você pode provisionar clusters usando a família de máquinas otimizadas para aceleradores com qualquer um dos seguintes produtos de código aberto ou do Google Cloud.

O Vertex AI

A Vertex AI é uma plataforma de machine learning (ML) totalmente gerenciada que você pode usar para treinar e implantar modelos de ML e aplicativos de IA. Nos aplicativos da Vertex AI, você pode usar VMs aceleradas por GPU para melhorar o desempenho das seguintes formas:

Usar VMs ativadas para GPU em pools de workers de treinamento personalizado do GKE.
Usar modelos de LLM de código aberto do Model Garden Vertex AI.
Reduzir a latência de previsão.
Melhorar o desempenho do código do notebook do Vertex AI Workbench.
Aumentar o desempenho de um ambiente de execução do Colab Enterprise.

GKE e Slurm

Plataformas de orquestração em grande escala, como o GKE, são ideais para provisionar clusters grandes que podem ser usados para treinar e ajustar modelos de ML em grande escala. Modelos de ML em grande escala são aqueles que usam grandes quantidades de dados.

As plataformas de orquestração a seguir estão disponíveis no Google Cloud.

Google Kubernetes Engine (GKE): é um serviço que pode ser usado para implantar e operar aplicativos conteinerizados em escala usando a infraestrutura do Google.
Slurm: é uma ferramenta de código aberto para gerenciamento de cluster e agendamento de jobs. No Google Cloud, você pode implantar clusters Slurm usando o Cloud HPC Toolkit.

Execute treinamentos e ajustes de modelos em grande escala

Para treinar ou ajustar modelos em grande escala, recomendamos usar um cluster de máquinas a3-megagpu-8g e implantar com um programador como GKE ou Slurm.

Opção de implantação	Guias de implantação
Slurm	Implantar um cluster A3 Mega Slurm
GKE;	Implantar um cluster A3 Mega com GKE

Execute treinamentos e ajustes do modelo principal

Para treinamento e ajuste de modelos principais, recomendamos usar o padrão a3-highgpu-8g ou qualquer tipo de máquina A2 ou G2 e implantar com um programador como GKE ou Slurm.

Opção de implantação

Guias de implantação

Cargas de trabalho

GKE;

Implantar pools de nós do autopilot ou padrão

Inferência: exibir modelos no GKE

Treinamento: treinar um modelo no GKE

Slurm

Executar o ajuste do Llama-2 em um cluster G2 Slurm

Compute Engine

Você também pode criar e gerenciar VMs únicas ou clusters menores de VMs com GPUs anexadas no Compute Engine. Este método é ideal para executar cargas de trabalho com uso intensivo de gráficos.

Opção de implantação	Guias de implantação
Criar grupos gerenciados de instâncias (MIGs)	Criar um MIG com VMs de GPU
Criar VMs em massa	Criar um grupo de VMs de GPU em massa
Criar uma única VM	Criar uma única VM de GPU
Criar estações de trabalho virtuais	Criar uma estação de trabalho virtual acelerada por GPU