O foco do Google Cloud é fornecer infraestrutura de inteligência artificial (IA) de nível mundial para potencializar suas cargas de trabalho aceleradas por GPU mais exigentes em uma ampla variedade de segmentos. É possível usar GPUs no Google Cloud para executar aplicativos de IA, aprendizado de máquina (ML), científicos, analíticos, corporativos, de engenharia e de consumo.
Com nossa parceria com a NVIDIA, o Google Cloud oferece as GPUs mais recentes e otimiza a pilha de software com uma ampla variedade de opções de armazenamento e rede. Para acessar uma lista completa de GPUs disponíveis, consulte Plataformas de GPU.
Confira nas seções a seguir os benefícios das GPUs no Google Cloud.
VMs aceleradas por GPU
No Google Cloud, você pode acessar e provisionar GPUs da maneira que melhor atende às suas necessidades. Uma família de máquinas especializadas e otimizadas para aceleradores está disponível, com GPUs pré-conectadas e recursos de rede ideais para maximizar o desempenho. Eles estão disponíveis nas séries de máquinas A3, A2 e G2.
Várias opções de provisionamento
Você pode provisionar clusters usando a família de máquinas otimizadas para aceleradores com qualquer um dos seguintes produtos de código aberto ou do Google Cloud.
O Vertex AI
A Vertex AI é uma plataforma de machine learning (ML) totalmente gerenciada que você pode usar para treinar e implantar modelos de ML e aplicativos de IA. Nos aplicativos da Vertex AI, você pode usar VMs aceleradas por GPU para melhorar o desempenho das seguintes formas:
- Usar VMs ativadas para GPU em pools de workers de treinamento personalizado do GKE.
- Usar modelos de LLM de código aberto do Model Garden Vertex AI.
- Reduzir a latência de previsão.
- Melhorar o desempenho do código do notebook do Vertex AI Workbench.
- Aumentar o desempenho de um ambiente de execução do Colab Enterprise.
GKE e Slurm
Plataformas de orquestração em grande escala, como o GKE, são ideais para provisionar clusters grandes que podem ser usados para treinar e ajustar modelos de ML em grande escala. Modelos de ML em grande escala são aqueles que usam grandes quantidades de dados.
As plataformas de orquestração a seguir estão disponíveis no Google Cloud.
Google Kubernetes Engine (GKE): é um serviço que pode ser usado para implantar e operar aplicativos conteinerizados em escala usando a infraestrutura do Google.
Slurm: é uma ferramenta de código aberto para gerenciamento de cluster e agendamento de jobs. No Google Cloud, você pode implantar clusters Slurm usando o Cloud HPC Toolkit.
Execute treinamentos e ajustes de modelos em grande escala
Para treinar ou ajustar modelos em grande escala, recomendamos usar um cluster de máquinas a3-megagpu-8g
e implantar com um programador como GKE ou Slurm.
Opção de implantação |
Guias de implantação |
Slurm |
|
GKE; |
Execute treinamentos e ajustes do modelo principal
Para treinamento e ajuste de modelos principais, recomendamos usar o padrão a3-highgpu-8g
ou qualquer tipo de máquina A2 ou G2 e implantar com um programador como GKE ou Slurm.
Opção de implantação |
Guias de implantação |
Cargas de trabalho |
GKE; |
Inferência: exibir modelos no GKE Treinamento: treinar um modelo no GKE |
|
Slurm |
Compute Engine
Você também pode criar e gerenciar VMs únicas ou clusters menores de VMs com GPUs anexadas no Compute Engine. Este método é ideal para executar cargas de trabalho com uso intensivo de gráficos.
Opção de implantação |
Guias de implantação |
Criar grupos gerenciados de instâncias (MIGs) |
|
Criar VMs em massa |
|
Criar uma única VM |
|
Criar estações de trabalho virtuais |