Risolvi i problemi delle VM GPU

Questa pagina mostra come risolvere i problemi per le VM in esecuzione su Compute Engine con GPU collegate.

Se stai tentando di creare una VM con GPU collegate e ricevi errori, consulta Risoluzione degli errori relativi alla disponibilità delle risorse e Risoluzione dei problemi relativi alla creazione e all'aggiornamento delle VM.

Risolvi i problemi delle VM GPU utilizzando NVIDIA DCGM

NVIDIA Data Center GPU Manager (DCGM) è una suite di strumenti per la gestione il monitoraggio delle GPU dei data center NVIDIA negli ambienti cluster.

Se vuoi utilizzare DCGM per risolvere i problemi nel tuo ambiente GPU, completa le seguenti:

  • Assicurati di utilizzare il driver NVIDIA consigliato più recente per la GPU un modello collegato alla tua VM. Per esaminare le versioni dei driver, vedi Versioni dei driver NVIDIA consigliate.
  • Assicurati di aver installato l'ultima versione di DCGM. Per installare l'ultima versione o la versione precedente, consulta l'articolo sull'installazione di DCGM.

Diagnostica dei problemi

Quando esegui un comando di diagnostica dcgmi, i problemi segnalati dalla diagnostica includono i passaggi successivi per intervenire in merito al problema. Nell'esempio che segue mostra l'output utilizzabile dal comando dcgmi diag -r memory -j.

{
  ........
   "category":"Hardware",
   "tests":[
      {
         "name":"GPU Memory",
         "results":[
            {
               "gpu_id":"0",
               "info":"GPU 0 Allocated 23376170169
bytes (98.3%)",
               "status":"Fail",
               ""warnings":[
                  {
                     "warning":"Pending page
retirements together with a DBE were detected on GPU 0. Drain the GPU and reset it or reboot the node to resolve this issue.",
                     "error_id":83,
                     "error_category":10,
                     "error_severity":6
                  }
               ]
            }
  .........

Dallo snippet di output precedente, puoi vedere che GPU 0 ha una pagina in attesa i ritiri causati da un errore irreversibile. L'output ha fornito l'error_id univoco e consigli sul debug del problema. Per questo output di esempio, ti consigliamo di svuotare la GPU e riavviare la VM. Nella maggior parte dei casi, seguendo le istruzioni in questa sezione del prompt può aiutarti a risolvere il problema.

Aprire una richiesta di assistenza

Se non riesci a risolvere i problemi utilizzando le indicazioni fornite dal dell'esecuzione diagnostica di dcgmi, puoi aprire una richiesta di assistenza. Quando apri una richiesta di assistenza, devi fornire le seguenti informazioni:

  1. Il comando che è stato eseguito e l'output restituito.
  2. File di log pertinenti, come motore host e log di diagnostica. Per raccogliere file di log richiesti, puoi eseguire lo script gather-dcgm-logs.sh.

    Per un'installazione predefinita su sistemi basati su Debian e RPM, questo script è si trova in /usr/local/dcgm/scripts.

  3. Per gli errori di dcgmi diag, fornisci i file delle statistiche dei plug-in che non hanno superato il test. Il file delle statistiche utilizza la seguente convenzione di denominazione: stats_PLUGIN_NAME.json.

    Ad esempio, se il plug-in pcie ha esito negativo, includi il file denominato stats_pcie.json.

  4. informazioni di sistema e stato del driver NVIDIA. Per raccogliere queste informazioni, può eseguire lo script nvidia-bug-report.sh.

    L'esecuzione di questo script migliora anche il debug qualora il problema si verifichi causata da altre dipendenze NVIDIA e non a un bug di DCGM.

  5. Dettagli su eventuali modifiche recenti apportate al tuo ambiente che precede l'errore.

Messaggi Xid

Dopo aver creato una VM con GPU collegate, devi installare il dispositivo NVIDIA driver sulle VM GPU per consentire alle applicazioni di accedere alle GPU. Tuttavia, a volte questi driver restituiscono messaggi di errore.

Un messaggio Xid è un report di errore del driver NVIDIA che viene stampato il log del kernel o il log eventi del sistema operativo per la tua VM Linux. Questi messaggi sono nel file /var/log/messages.

Per ulteriori informazioni sui messaggi Xid, incluse le potenziali cause, consulta la documentazione di NVIDIA.

La sezione seguente fornisce indicazioni sulla gestione di alcuni messaggi Xid raggruppati in base ai tipi più comuni: errori di memoria GPU, errori del processore di sistema GPU (GSP), ed errori di accesso alla memoria illegali.

Errori di memoria GPU

La memoria GPU è la memoria disponibile su una GPU che può essere utilizzata per l'archiviazione temporanea dei dati. La memoria GPU è protetta da un codice di correzione degli errori, ECC, che rileva e corregge gli errori a bit singolo (SBE) e rileva e segnala Errori a doppio bit (DBE).

Prima del rilascio delle GPU NVIDIA A100, ritiro dinamico delle pagine era supportata. Per le release GPU NVIDIA A100 e successive (come NVIDIA H100), errore di rimappatura delle righe il ripristino di emergenza. ECC è abilitato per impostazione predefinita. Google consiglia vivamente mantenendo abilitato ECC.

Di seguito sono riportati errori comuni di memoria GPU e le relative risoluzioni suggerite.

Messaggio di errore Xid Risoluzione
Xid 48: Double Bit ECC
  1. Arresta i carichi di lavoro.
  2. Elimina e ricrea la VM. Se l'errore persiste, invia una richiesta a Assistenza clienti Google Cloud.
Xid 63: ECC page retirement or row remapping recording event
  1. Arresta i carichi di lavoro.
  2. Reimposta le GPU.
Xid 64: ECC page retirement or row remapper recording failure

Il messaggio contiene le seguenti informazioni:

Xid 64: All reserved rows for bank are remapped
  1. Arresta i carichi di lavoro.
  2. Elimina e ricrea la VM. Se l'errore persiste, invia una richiesta a Assistenza clienti Google Cloud.

Se visualizzi almeno due dei seguenti messaggi Xid insieme:

  • Xid 48
  • Xid 63
  • Xid 64

Il messaggio contiene le seguenti informazioni:

Xid XX: row remap pending
  1. Arresta i carichi di lavoro.
  2. Reimposta le GPU. La reimpostazione della GPU consente la rimappatura delle righe e il processo di ritiro della pagina per completare e ripristinare la GPU.
Xid 92: High single-bit ECC error rate Questo messaggio Xid viene restituito dopo che il driver GPU corregge un corretto e non dovrebbe influire sui tuoi carichi di lavoro. Questo XID solo a scopo informativo. Non è necessaria alcuna azione da parte tua.
Xid 94: Contained ECC error
  1. Arresta i carichi di lavoro.
  2. Reimposta le GPU.
Xid 95: Uncontained ECC error
  1. Arresta i carichi di lavoro.
  2. Reimposta le GPU.

Errori relativi a GSP

Un processore di sistema GPU (GSP) è un microcontroller che viene eseguito su GPU e gestisce alcune delle funzioni di gestione dell'hardware.

Messaggio di errore Xid Risoluzione
Xid 119: GSP RPC timeout
  1. Arresta i carichi di lavoro.
  2. Elimina e ricrea la VM. Se l'errore persiste, raccogli la segnalazione di bug NVIDIA e invia una richiesta a Assistenza clienti Google Cloud.
Xid 120: GSP error

Errori di accesso alla memoria non validi

I seguenti XID vengono restituiti quando le applicazioni hanno un accesso alla memoria illegale problemi:

  • Xid 13: Graphics Engine Exception
  • Xid 31: GPU memory page fault

Gli errori di accesso alla memoria non validi sono generalmente causati dai carichi di lavoro che tentano per accedere alla memoria già liberata o fuori dai limiti. Ciò può essere causato da problemi come il deriferimento di un puntatore non valido o un array di limiti in uscita.

Per risolvere il problema, devi eseguire il debug della tua applicazione. Per eseguire il debug puoi utilizzare cuda-memcheck e CUDA-GDB.

In alcuni rari casi, il degrado dell'hardware potrebbe causare un accesso illegale alla memoria errori da restituire. Per identificare se il problema riguarda l'hardware, utilizza Gestore GPU (DCGM) del data center NVIDIA. Puoi eseguire dcgmi diag -r 3 o dcgmi diag -r 4 per eseguire diversi livelli di copertura e durata del test. Se identifichi che il problema riguarda l'hardware, invia una richiesta all'assistenza clienti Google Cloud.

Altri messaggi di errore comuni di Xid

Messaggio di errore Xid Risoluzione
Xid 74: NVLINK error
  1. Arresta i carichi di lavoro.
  2. Reimposta le GPU.
Xid 79: GPU has fallen off the bus

Ciò significa che il driver non è in grado di comunicare con la GPU.

Riavvia la VM.

Reimposta GPU

Alcuni problemi potrebbero richiedere il ripristino delle GPU. Per reimpostare le GPU, completa i seguenti passaggi:

  • Per le VM N1, G2 e A2, riavvia la VM eseguendo sudo reboot.
  • Per le VM A3, esegui nvidia-smi reset GPU.

Se gli errori persistono dopo aver reimpostato la GPU, devi delete e ricrea la VM.

Se l'errore persiste dopo un'eliminazione e una nuova creazione, invia una richiesta Assistenza clienti Google Cloud per spostare la VM fase di riparazione.