TPU v5e
Dokumen ini menjelaskan arsitektur dan konfigurasi Cloud TPU v5e yang didukung.
TPU v5e mendukung pelatihan dan multi-host serta inferensi single-host. Inferensi multi-host didukung menggunakan Sax. Untuk informasi selengkapnya, lihat Penayangan Model Bahasa Besar.
Arsitektur sistem
Setiap chip v5e berisi satu TensorCore. Setiap TensorCore memiliki empat unit perkalian matriks (MXU), unit vektor, dan unit skalar.
Diagram berikut mengilustrasikan chip TPU v5e.
Tabel berikut menunjukkan spesifikasi chip utama dan nilainya untuk v5e.
Spesifikasi chip kunci | Nilai v5e |
Komputasi puncak per chip (bf16) | 197 TFLOP |
Komputasi puncak per chip (Int8) | 393 TFLOP |
Kapasitas dan bandwidth HBM2 | 16 GB, 819 GBps |
BW Interchip Interconnect | 1.600 Gbps |
Tabel berikut menunjukkan spesifikasi Pod dan nilainya untuk v5e.
Spesifikasi utama Pod | Nilai v5e |
Ukuran Pod TPU | 256 chip |
Topologi interkoneksi | Torus 2D |
Komputasi puncak per Pod | 100 PetaOps(Int8) |
Semua bandwidth yang dikurangi per Pod | 51,2 TB/d |
Bandwidth Bisection per Pod | 1,6 TB/d |
Bandwidth jaringan pusat data per Pod | 6,4 Tbps |
Konfigurasi
Cloud TPU v5e adalah produk pelatihan dan inferensi (penyaluran) gabungan. Untuk membedakan antara pelatihan dan lingkungan inferensi, gunakan flag AcceleratorType
atau AcceleratorConfig
dengan TPU API atau flag --machine-type
saat membuat kumpulan node GKE.
Tugas pelatihan dioptimalkan untuk throughput dan ketersediaan, sedangkan tugas penayangan dioptimalkan untuk latensi. Tugas pelatihan pada TPU yang disediakan untuk inferensi dapat memiliki ketersediaan yang lebih rendah, begitu pula, tugas inferensi yang dijalankan di TPU yang disediakan untuk pelatihan dapat memiliki latensi yang lebih tinggi.
Anda menggunakan AcceleratorType
untuk menentukan jumlah TensorCore yang ingin digunakan.
Anda menentukan AcceleratorType
saat membuat TPU menggunakan gcloud CLI atau Google Cloud Console. Nilai yang Anda
tentukan untuk AcceleratorType
adalah string dengan format:
v$VERSION_NUMBER-$CHIP_COUNT
.
Anda juga dapat menggunakan AcceleratorConfig
untuk menentukan jumlah TensorCore yang ingin digunakan. Namun, karena tidak ada varian topologi 2D kustom untuk TPU v5e, tidak ada perbedaan antara penggunaan AcceleratorConfig
dan AcceleratorType
.
Untuk mengonfigurasi TPU v5e menggunakan AcceleratorConfig
, gunakan --version
dan flag --topology
. Tetapkan --version
ke versi TPU yang ingin Anda gunakan dan
--topology
ke susunan fisik chip TPU dalam slice. Nilai
yang Anda tentukan untuk AcceleratorConfig
adalah string dengan format AxB
,
dengan A
dan B
adalah chip yang dihitung di setiap arah.
Bentuk irisan 2D berikut didukung untuk v5e:
Topologi | Jumlah TPU chip | Jumlah Host |
1x1 | 1 | 1/8 |
2x2 | 4 | 1/2 |
2x4 | 8 | 1 |
4x4 | 16 | 2 |
4x8 | 32 | 4 |
8x8 | 64 | 8 |
8x16 | 128 | 16 |
16x16 | 256 | 32 |
Setiap VM TPU dalam slice TPU v5e berisi 1, 4, atau 8 chip. Dalam 4-chip dan irisan yang lebih kecil, semua chip TPU berbagi node Non Uniform Memory Access (NUMA) yang sama.
Untuk VM TPU 8-chip v5e, komunikasi CPU-TPU akan lebih efisien dalam partisi
NUMA. Misalnya, dalam gambar berikut, komunikasi CPU0-Chip0
akan
lebih cepat daripada komunikasi CPU0-Chip4
.
Jenis Cloud TPU v5e untuk inferensi
Penyajian host tunggal didukung hingga 8 chip v5e. Konfigurasi berikut didukung: irisan 1x1, 2x2, dan 2x4. Setiap irisan memiliki 1, 4 dan 8 {i>chip<i}.
Guna menyediakan TPU untuk tugas penayangan, gunakan salah satu jenis akselerator berikut di permintaan pembuatan CLI atau TPU API Anda:
AkseleratorType (TPU API) | Jenis mesin (GKE API) |
---|---|
v5litepod-1 |
ct5lp-hightpu-1t |
v5litepod-4 |
ct5lp-hightpu-4t |
v5litepod-8 |
ct5lp-hightpu-8t |
Penayangan di lebih dari 8 chip v5e, yang juga disebut penayangan multi-host, didukung menggunakan Sax. Untuk mengetahui informasi selengkapnya, lihat Penayangan Model Bahasa Besar.
Jenis Cloud TPU v5e untuk pelatihan
Pelatihan didukung hingga 256 chip.
Guna menyediakan TPU untuk tugas pelatihan v5e, gunakan salah satu jenis akselerator berikut di permintaan pembuatan CLI atau API TPU Anda:
AkseleratorType (TPU API) | Jenis mesin (GKE API) | Topologi |
---|---|---|
v5litepod-16 |
ct5lp-hightpu-4t |
4x4 |
v5litepod-32 |
ct5lp-hightpu-4t |
4x8 |
v5litepod-64 |
ct5lp-hightpu-4t |
8x8 |
v5litepod-128 |
ct5lp-hightpu-4t |
8x16 |
v5litepod-256 |
ct5lp-hightpu-4t |
16x16 |
Perbandingan jenis VM TPU v5e:
Jenis VM | n2d-48-24-v5lite-tpu | n2d-192-112-v5lite-tpu | n2d-384-224-v5lite-tpu |
# chip v5e | 1 | 4 | 8 |
# vCPU | 24 | 112 | 224 |
RAM (GB) | 48 | 192 | 384 |
# dari NUMA Node | 1 | 1 | 2 |
Berlaku untuk | V5litepod-1 | V5litepod-4 | V5litepod-8 |
Gangguan | Tinggi | Sedang | Rendah |
Untuk memberi ruang bagi beban kerja yang memerlukan lebih banyak chip, penjadwal dapat melakukan preemption terhadap VM dengan lebih sedikit chip. Jadi VM 8-chip cenderung mendahului VM 1 dan 4-chip.