Crea un'istanza abilitata per Dataproc
Questa pagina descrive come creare un'istanza Vertex AI Workbench abilitata per Dataproc. In questa pagina vengono inoltre descritti i vantaggi del plug-in JupyterLab di Dataproc e offre una panoramica su come utilizzare il plug-in con Dataproc Serverless per Spark Dataproc su Compute Engine.
Panoramica del plug-in JupyterLab di Dataproc
Le istanze di Vertex AI Workbench hanno
Plug-in JupyterLab preinstallato, a partire dalla versione M113
e successive.
Il plug-in JupyterLab di Dataproc offre due modi per eseguire Job di blocchi note Apache Spark: cluster Dataproc Spark serverless su Dataproc.
- I cluster Dataproc includono un ricco insieme di funzionalità con controllo sull'infrastruttura su cui viene eseguito Spark. Scegli le dimensioni e la configurazione del cluster Spark, per la personalizzazione e il controllo del tuo ambiente. Questo approccio è ideale per carichi di lavoro complessi, job a lunga esecuzione e la gestione granulare delle risorse.
- Spark serverless basato su Dataproc elimina i problemi dell'infrastruttura. Invii i tuoi job Spark Google gestisce il provisioning, la scalabilità e l'ottimizzazione delle risorse dietro le quinte. Questo approccio serverless offre un ambiente economicamente vantaggiosa per i carichi di lavoro di data science e ML.
Con entrambe le opzioni, puoi utilizzare Spark per l'elaborazione dei dati e analisi. La scelta tra i cluster Dataproc Spark serverless dipende dai requisiti specifici dei carichi di lavoro il livello desiderato di controllo e i pattern di utilizzo delle risorse.
I vantaggi dell'utilizzo di Spark serverless per i carichi di lavoro di data science e ML includono:
- Nessuna gestione dei cluster: non devi preoccuparti sul provisioning, la configurazione o la gestione dei cluster Spark. In questo modo tempo e risorse.
- Scalabilità automatica: Spark serverless esegue automaticamente lo scale up o meno in base al carico di lavoro, quindi paghi solo per le risorse che utilizzi.
- Prestazioni elevate: Spark serverless è ottimizzato per e sfrutta l'infrastruttura di Google Cloud.
- Integrazione con altre tecnologie Google Cloud: Spark serverless si integra con altri prodotti Google Cloud, come BigQuery e Dataplex.
Per ulteriori informazioni, consulta Documentazione di Dataproc Serverless.
Limitazioni
Tieni presente i seguenti limiti quando pianifichi il progetto:
- Il plug-in JupyterLab di Dataproc che supportano i Controlli di servizio VPC.
Limitazioni di Dataproc
Si applicano le seguenti limitazioni di Dataproc:
- I job Spark vengono eseguiti con l'identità dell'account di servizio, non con l'identità dell'utente che li invia.
Prima di iniziare
- Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Enable the Cloud Resource Manager, Dataproc, and Notebooks APIs.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Enable the Cloud Resource Manager, Dataproc, and Notebooks APIs.
Ruoli obbligatori
Per assicurarti che l'account di servizio disponga dei necessari autorizzazioni per eseguire un file blocco note su un cluster Dataproc serverless o un cluster Dataproc, chiedi all'amministratore di concedere all'account di servizio seguenti ruoli IAM:
-
Worker Dataproc (
roles/dataproc.worker
) del tuo progetto -
Editor Dataproc (
roles/dataproc.editor
) sul cluster per l'autorizzazionedataproc.clusters.use
Per saperne di più sulla concessione dei ruoli, consulta Gestire l'accesso a progetti, cartelle e organizzazioni.
Questi ruoli predefiniti le autorizzazioni necessarie per eseguire un file di blocco note su un cluster Dataproc serverless o un cluster Dataproc. Per vedere le autorizzazioni esatte obbligatorie, espandi la sezione Autorizzazioni obbligatorie:
Autorizzazioni obbligatorie
Per eseguire un file blocco note su un cluster Dataproc serverless o un cluster Dataproc: sono necessarie le seguenti autorizzazioni:
-
dataproc.agents.create
-
dataproc.agents.delete
-
dataproc.agents.get
-
dataproc.agents.update
-
dataproc.tasks.lease
-
dataproc.tasks.listInvalidatedLeases
-
dataproc.tasks.reportStatus
-
dataproc.clusters.use
L'amministratore potrebbe anche essere in grado di fornire l'account di servizio queste autorizzazioni con ruoli personalizzati e altri ruoli predefiniti.
Creazione di un'istanza con Dataproc abilitato
Per creare un'istanza di Vertex AI Workbench con Dataproc abilitato, segui questi passaggi:
Nella console Google Cloud, vai alla pagina Istanze.
Fai clic su
Crea nuovo.Nella finestra di dialogo Nuova istanza, fai clic su Opzioni avanzate.
Nella sezione Dettagli della finestra di dialogo Crea istanza, assicurati che L'opzione Abilita sessioni interattive serverless di Dataproc è selezionata.
Assicurati che Tipo di workbench sia impostato su Istanza.
Nella sezione Ambiente, assicurati di utilizzare la versione più recente. oppure una versione con numero
M113
o superiore.Fai clic su Crea.
Vertex AI Workbench crea un'istanza e la avvia automaticamente. Quando l'istanza è pronta per l'uso, Vertex AI Workbench attiva un link Apri JupyterLab.
Apri JupyterLab
Accanto al nome dell'istanza, fai clic su Apri JupyterLab.
Nel browser si apre la scheda Avvio app JupyterLab. Per impostazione predefinita, contiene sezioni per notebook Dataproc Serverless e job e sessioni Dataproc. Se ci sono per i cluster Jupyter nel progetto e nella regione selezionati, una sezione chiamata Blocchi note del cluster Dataproc.
Usa il plug-in con Dataproc Serverless per Spark
Modelli di runtime Spark serverless che si trovano nella stessa regione e nello stesso progetto quando la tua istanza di Vertex AI Workbench viene visualizzata nella Sezione Blocchi note serverless di Dataproc di JupyterLab Scheda Avvio app.
Per creare un modello di runtime, consulta Creare un modello di runtime Dataproc serverless modello di runtime.
Per aprire un nuovo blocco note Spark serverless, fai clic su un modello di runtime. it l'avvio del kernel Spark remoto richiede circa un minuto. Dopo il kernel puoi iniziare a programmare. Per eseguire il codice su Serverless Spark, esegui una cella di codice nel notebook.
Utilizzo del plug-in con Dataproc su Compute Engine
Se hai creato un progetto Dataproc su Compute Engine Ammasso Jupyter, sulla scheda Avvio app nella sezione Blocchi note del cluster Dataproc.
Vengono visualizzate quattro schede per ogni cluster Dataproc pronto per Jupyter a cui hai accesso nella regione e nel progetto.
Per modificare la regione e il progetto:
Seleziona Impostazioni > Impostazioni di Cloud Dataproc.
Nella scheda Configurazione configurazione, in Informazioni sul progetto, modifica ID progetto e Regione, quindi fai clic su Salva.
Queste modifiche non vengono applicate finché non riavvii JupyterLab.
Per riavviare JupyterLab, seleziona File > Arresta e quindi fai clic su Apri JupyterLab sulla Istanze Vertex AI Workbench.
Per creare un nuovo blocco note, fai clic su una scheda. Dopo il kernel remoto un cluster Dataproc si avvia, puoi iniziare a scrivere il codice per poi eseguirlo sul tuo cluster.
Gestione di Dataproc su un'istanza mediante gcloud CLI e l'API
Questa sezione descrive i modi per gestire Dataproc su un Vertex AI Workbench.
Modifica la regione del cluster Dataproc
I kernel predefiniti della tua istanza di Vertex AI Workbench, ad esempio Python e TensorFlow sono kernel locali che vengono eseguiti nella VM dell'istanza. In un'istanza di Vertex AI Workbench abilitata per Dataproc, il blocco note viene eseguito su un cluster Dataproc tramite un kernel remoto. Il kernel remoto viene eseguito su un servizio esterno alla VM dell'istanza che ti permette di accedere a qualsiasi cluster Dataproc all'interno dello stesso progetto.
Per impostazione predefinita Vertex AI Workbench utilizza i cluster Dataproc all'interno della stessa regione dell'istanza, ma puoi modificare Dataproc regione purché Gateway dei componenti e il componente facoltativo Jupyter sono abilitate sul cluster Dataproc.
Per cambiare la regione della VM dell'istanza, usa il comando seguente:
gcloud config set compute/region REGION
Sostituisci REGION con la regione che preferisci, ad esempio
us-east4
.Per modificare la regione del cluster Dataproc, utilizza questo comando:
gcloud config set dataproc/region REGION
Sostituisci REGION con la regione che preferisci, ad esempio
us-east4
.
Accesso di prova
Il plug-in JupyterLab di Dataproc è abilitato per impostazione predefinita
di Vertex AI Workbench. Per testare l'accesso a Dataproc,
puoi controllare l'accesso ai kernel remoti della tua istanza inviando quanto segue
richiesta curl al dominio kernels.googleusercontent.com
:
curl --verbose -H "Authorization: Bearer $(gcloud auth print-access-token)" https://PROJECT_ID-dot-REGION.kernels.googleusercontent.com/api/kernelspecs | jq .
Se il comando curl non riesce, accertati che:
Le voci DNS sono configurate correttamente.
È disponibile un cluster nello stesso progetto (o dovrai crearne uno se non esiste).
Il cluster include Gateway dei componenti e il componente facoltativo Jupyter in un bucket con il controllo delle versioni attivo.
Disattiva Dataproc
Le istanze di Vertex AI Workbench vengono create con Dataproc
sono abilitate per impostazione predefinita. Puoi creare un'istanza di Vertex AI Workbench con Dataproc disattivato impostando la chiave disable-mixer
metadata
su true
.
gcloud workbench instances create INSTANCE_NAME --metadata=disable-mixer=true
Abilita Dataproc
Puoi abilitare Dataproc su un'istanza di Vertex AI Workbench arrestata aggiornando il valore dei metadati.
gcloud workbench instances update INSTANCE_NAME --metadata=disable-mixer=false
Gestione di Dataproc con Terraform
Istanze di Dataproc per Vertex AI Workbench
su Terraform è gestito utilizzando la chiave disable-mixer
nel campo dei metadati.
Attiva Dataproc impostando il disable-mixer
Chiave metadata
per false
. Disattiva Dataproc impostando la chiave dei metadati disable-mixer
su true
.
Per scoprire come applicare o rimuovere una configurazione Terraform, consulta: Comandi Terraform di base.
Risoluzione dei problemi
Per diagnosticare e risolvere problemi relativi alla creazione su un'istanza abilitata per Dataproc, consulta la sezione Risoluzione dei problemi Vertex AI Workbench.
Passaggi successivi
Per ulteriori informazioni sul plug-in JupyterLab di Dataproc, consulta Utilizzare JupyterLab per blocco note interattivo e batch serverless sessioni.
Per saperne di più su Spark serverless, consulta Documentazione di Dataproc Serverless
Per saperne di più sull'utilizzo di Spark con i prodotti Google Cloud e vedi Spark su Google Cloud.
Sfoglia i modelli Dataproc su GitHub.
Scopri di più su Spark serverless tramite
serverless-spark-workshop
attivo GitHub.Leggi la documentazione di Apache Spark.