Google Cloud の GPU について


Google Cloud は、世界水準の人工知能(AI)インフラストラクチャを提供し、幅広いセグメントで最も要求の厳しい GPU アクセラレーショ ワークロードを強化することに注力しています。Google Cloud の GPU を使用して、AI、機械学習(ML)、科学、分析、エンジニアリング、コンシューマー、エンタープライズ アプリケーションを実行できます。

Google Cloud は NVIDIA とのパートナーシップを通じて、最新の GPU を提供すると同時に、ストレージとネットワーキングの幅広いオプションでソフトウェア スタックを最適化しています。利用可能な GPU の完全なリストについては、GPU プラットフォームをご覧ください。

以降のセクションでは、Google Cloud での GPU のメリットについて説明します。

GPU アクセラレーション VM

Google Cloud では、ニーズに最適な方法で GPU にアクセスしてプロビジョニングできます。専用のアクセラレータ最適化マシン ファミリーが用意されており、パフォーマンスを最大限に高めるために最適な、事前接続された GPU とネットワーク機能を備えています。これらは、A3、A2、G2 のマシンシリーズで使用できます。

複数のプロビジョニング オプション

アクセラレータ最適化マシン ファミリーを使用すると、次のいずれかのオープンソースまたは Google Cloud プロダクトを使用してクラスタをプロビジョニングできます。

Vertex AI

Vertex AI は、ML モデルと AI アプリケーションのトレーニングとデプロイに使用できるフルマネージド型の機械学習(ML)プラットフォームです。Vertex AI アプリケーションでは、GPU アクセラレーション VM を使用して、次の方法でパフォーマンスを向上させることができます。

GKE と Slurm

GKE などの大規模なオーケストレーション プラットフォームは、大規模な ML モデルのトレーニングとファインチューニングに使用できる大規模なクラスタをプロビジョニングする場合に最適です。大規模な ML モデルとは、膨大な量のデータを使用するモデルです。

Google Cloud では、次のオーケストレーション プラットフォームを使用できます。

  • Google Kubernetes Engine(GKE): Google のインフラストラクチャを使用して、コンテナ化されたアプリケーションを大規模にデプロイして運用するために使用できるサービス。

  • Slurm: オープンソースのクラスタ管理ツールとジョブ スケジューリング ツール。Google Cloud では、Cluster Toolkit を使用して Slurm クラスタをデプロイできます。

大規模なモデルのトレーニングとファインチューニングを実行する

大規模なモデルのトレーニングやファインチューニングを行う場合は、a3-megagpu-8g マシンのクラスタを使用し、GKE や Slurm などのスケジューラでデプロイすることをおすすめします。

デプロイ方法

デプロイガイド

Slurm

A3 Mega Slurm クラスタをデプロイする

GKE

GKE を使用して A3 Mega クラスタをデプロイする

メインストリーム モデルのトレーニングとファインチューニングを実行する

メインストリーム モデルのトレーニングとファインチューニングを行う場合は、標準の a3-highgpu-8g または A2 マシンタイプまたは G2 マシンタイプを使用し、GKE や Slurm などのスケジューラでデプロイすることをおすすめします。

デプロイ方法

デプロイガイド

ワークロード

GKE

Autopilot または Standard ノードプールをデプロイする

推論: GKE でモデルを提供する

トレーニング: GKE でモデルをトレーニングする

Slurm

G2 Slurm クラスタで Llama-2 ファインチューニングを実行する

Compute Engine

Compute Engine で、GPU が接続された単一の VM または小さい VM クラスタを作成して管理することもできます。この方法は、グラフィックを多用するワークロードの実行に最適です。

デプロイ方法

デプロイガイド

マネージド インスタンス グループ(MIG)を作成する

GPU VM を使用する MIG を作成する

VM を一括作成する

GPU VM のグループを一括作成する

単一の VM を作成する

単一の GPU VM を作成する

仮想ワークステーションを作成する

仮想 GPU で高速化されたワークステーションを作成する

Cloud Run

Cloud Run サービスに GPU を構成できます。GPU は、Cloud Run で大規模言語モデルを使用して AI 推論ワークロードを実行する場合に最適です。

Cloud Run を使用して GPU 上で AI ワークロードを実行する方法については、次のリソースをご覧ください。