Dataproc

Lancia una soluzione preconfigurata che unifica data lake e data warehouse per l'archiviazione, l'elaborazione e l'analisi di dati strutturati e non strutturati. Fai una prova gratuita.

Vai a

Dataproc

Dataproc è un servizio completamente gestito e a scalabilità elevata per l'esecuzione di Apache Hadoop, Apache Spark, Apache Flink, Presto e oltre 30 strumenti e framework open source. Utilizza Dataproc per la modernizzazione dei data lake, l'ETL e attività di data science sicure su scala mondiale, completamente integrati con Google Cloud a un costo molto inferiore.

Prova Dataproc gratuitamente

Flessibile: utilizza il serverless o gestisci i cluster su Google Compute e Kubernetes. Esegui il deployment di una soluzione consigliata da Google che unifica data lake e data warehouse per l'archiviazione, l'elaborazione e l'analisi di dati strutturati e non strutturati
Aperto: esegui analisi dei dati open source su larga scala, con sicurezza di livello aziendale
Intelligente: abilita gli utenti dei dati tramite le integrazioni con Vertex AI, BigQuery e Dataplex
Sicuro: configura sicurezza avanzata come Kerberos, Apache Ranger e Autenticazione personale
Conveniente: ottieni una riduzione del TCO del 54% rispetto ai data lake on-premise con prezzi al secondo

Icona Dataproc al centro di un anello di loghi: Apache Spark, Presto, Hive, Jupyter, Hadoop, Flink, Apache Pig

VIDEO

Dataproc supporta i software open source più diffusi, come Apache Spark, Presto, Flink e altri.

1:23

Vantaggi

Modernizza l'elaborazione dei dati open source

Software open source intelligente e senza interruzioni per data science

Consenti ai data scientist e agli analisti di dati di eseguire senza problemi job di data science tramite integrazioni native con BigQuery, Dataplex, Vertex AI e blocchi note OSS come JupyterLab.

Sicurezza aziendale integrata con Google Cloud

Funzionalità di sicurezza come la crittografia predefinita dei dati inattivi, il servizio OS Login, i Controlli di servizio VPC e le chiavi di crittografia gestite dal cliente (CMEK). Abilita la modalità protetta di Hadoop tramite Kerberos aggiungendo una configurazione di sicurezza.

Funzionalità principali

Software open source per i big data completamente gestiti e automatizzati

Il logging, il monitoraggio e il deployment serverless ti consentono di concentrarti sui dati e analisi, anziché sull'infrastruttura. Riduci il TCO della gestione di Apache Spark fino al 54%- Consenti ai data scientist e ai data engineer di creare e addestrare modelli 5 volte più velocemente rispetto ai blocchi note tradizionali, grazie all'integrazione con Vertex AI Workbench. L'API Dataproc Jobs facilita l'integrazione dell'elaborazione di big data in applicazioni personalizzate, mentre Dataproc Metastore elimina la necessità di eseguire il tuo metastore Hive o il servizio catalogo.

Containerizzazione dei job Apache Spark con Kubernetes

Crea i tuoi job Apache Spark utilizzando Dataproc su Kubernetes in modo da poter utilizzare Dataproc con Google Kubernetes Engine (GKE) per offrire portabilità e isolamento dei job.

Sicurezza aziendale integrata con Google Cloud

Quando crei un cluster Dataproc, puoi abilitare la modalità protetta di Hadoop tramite Kerberos per mezzo dell'aggiunta di una configurazione di sicurezza. Inoltre, alcune delle funzionalità di sicurezza specifiche di Google Cloud utilizzate più comunemente con Dataproc sono la crittografia predefinita dei dati inattivi, il servizio OS Login, i Controlli di servizio VPC e le chiavi di crittografia gestite dal cliente (CMEK).

Il meglio dell'open source con il meglio di Google Cloud

Dataproc ti consente di utilizzare gli strumenti open source, gli algoritmi e i linguaggi di programmazione che utilizzi attualmente, semplificandone l'applicazione su set di dati su scala cloud. Allo stesso tempo, Dataproc offre integrazione immediata con il resto dell'ecosistema di analisi, database e AI di Google Cloud. I data scientist e i data engineer possono accedere rapidamente ai dati e creare applicazioni di dati che collegano Dataproc a BigQuery, Vertex AI, Spanner, Pub/Sub o Data Fusion.

Visualizza tutte le funzionalità

Miniatura dell'edificio di una banca con un foglio di lavoro a sinistra e un cellulare a destra

VIDEO

Demo: scopri come Dataproc e Cloud Storage possono contribuire ad accelerare l'elaborazione di prestiti

3:39

Clienti

Impara dai clienti che utilizzano Dataproc

Blog post

Broadcom modernizza il suo data lake con Dataproc e ottiene una gestione flessibile dei dati

Lettura di 5 minuti

Case study

Dataproc offre a Wayfair accesso ad alte prestazioni e manutenzione ridotta di dati non strutturati su larga scala.

Lettura di 8 minuti

Video

Vodafone Group sposta 600 server Apache Hadoop on-premise sul cloud.

47:17

Case study

Twitter è passata da Hadoop on-premise a Google Cloud per archiviare ed eseguire query sui dati in modo più conveniente.

49:57

Case study

Pandora ha eseguito la migrazione di oltre 7 PB di dati da Hadoop on-prem a Google Cloud per scalare e ridurre i costi.

50:51

Case study

Avviare e arrestare i cluster Dataproc ha permesso a METRO di ridurre i costi dell'infrastruttura di una percentuale tra il 30% e il 50%.

Lettura di 5 minuti

Visualizza tutti i clienti

Novità

Spark serverless è ora disponibile pubblicamente. Registrati per l'anteprima di altri servizi Spark su Google Cloud.

Blog post

Job Spark serverless senza interruzioni per tutti gli utenti di datiScopri di più

Blog post

Architetture convergenti: unione di data lake e data warehouseLeggi il blog

Blog post

Nuova guida di Dataproc alle best practiceScopri di più

Blog post

Le nuove funzionalità di Dataproc disponibili pubblicamente estendono le capacità di data science e machine learningScopri di più

Documentazione

Google Cloud Basics

Spark serverless

Invia job Spark con provisioning automatico e scalabilità automatica. Puoi trovare ulteriori informazioni nel link alla guida rapida qui sotto.

Scopri di più

APIs & Libraries

Azioni di inizializzazione di Dataproc

Aggiungi altri progetti OSS ai tuoi cluster Dataproc con azioni di inizializzazione integrate.

Scopri di più

APIs & Libraries

Connettori open source

Librerie e strumenti per l'interoperabilità di Apache Hadoop.

Scopri di più

APIs & Libraries

Modelli di flusso di lavoro Dataproc

L'API WorkflowTemplates di Dataproc offre un meccanismo flessibile e facile da usare per la gestione e l'esecuzione dei flussi di lavoro.

Scopri di più

Non trovi ciò che stai cercando?

Visualizza tutta la documentazione del prodotto

Note di rilascio

Scopri le ultime release di Dataproc.

Casi d'uso

Caso d'uso

Spostamento dei cluster Hadoop e Spark nel cloud

Le aziende eseguono la migrazione dei loro cluster Apache Hadoop e Spark on-premise esistenti su Dataproc per gestire i costi e liberare la potenza della scalabilità elastica. Con Dataproc, le aziende dispongono di un cluster creato appositamente e completamente gestito che può scalare automaticamente per supportare qualsiasi job di elaborazione di dati o analisi.

Best practice

Guida alla migrazione di Apache Spark

Non riscrivere il tuo codice Spark in Google Cloud.

Scopri di più

Best practice

Migrazione dei dati HDFS su Google Cloud

Scopri quando e in che modo dovresti eseguire la migrazione dei tuoi dati HDFS on-premise in Google Cloud Storage.

Scopri di più

Best practice

Migrazione dei controlli di sicurezza da on-premise a Dataproc

Esegui la migrazione dei controlli di sicurezza esistenti in Dataproc per ottenere la conformità aziendale e di settore.

Scopri di più

Caso d'uso

Data science su Dataproc

Crea il tuo ambiente di data science ideale avviando un cluster Dataproc creato appositamente. Integra i software open source come i blocchi note Apache Spark, NVIDIA RAPIDS e Jupyter con i servizi AI e le GPU di Google Cloud per accelerare lo sviluppo del machine learning e dell'AI.

Tutorial

Utilizzo di Dataproc e Apache Spark ML per il machine learning

Integra Dataproc con altri servizi Google Cloud per creare un'esperienza di data science end-to-end.

Scopri di più

Best practice

Attività di data science open source basate sull'IT con Dataproc Hub

Scopri in che modo Dataproc Hub può offrire ai data scientist tutti gli strumenti open source necessari, in modo conveniente e basato sull'IT.

Scopri di più

Tutorial

Dataproc incontra TensorFlow su YARN

Scopri come orchestrare TensorFlow distribuito con TonY.

Scopri di più

Visualizza tutte le guide tecniche

Tutte le funzionalità

Spark serverless	Esegui il deployment di applicazioni e pipeline Spark che scalano automaticamente senza alcun provisioning o ottimizzazione manuale dell'infrastruttura.
Cluster ridimensionabili	Crea e scala i cluster rapidamente con un'ampia gamma di tipi di macchine virtuali, dimensioni dei dischi, opzioni di networking e con il numero di nodi che vuoi tu.
Scalabilità automatica dei cluster	La scalabilità automatica di Dataproc offre un meccanismo per automatizzare la gestione delle risorse cluster e permette di aggiungere e sottrarre automaticamente i worker (nodi) del cluster.
Integrazione con Cloud	Integrazione perfetta con Cloud Storage, BigQuery, Dataplex, Vertex AI, Composer, Bigtable, Cloud Logging e Cloud Monitoring per ottenere una piattaforma dati più completa e robusta.
Configurazione automatica o manuale	Dataproc configura automaticamente l'hardware e il software, ma consente anche il controllo manuale.
Strumenti per sviluppatori	Sono disponibili diversi strumenti per gestire un cluster, tra cui una UI web facile da utilizzare, Cloud SDK, API RESTful e accesso SSH.
Azioni di inizializzazione	Esegui azioni di inizializzazione per installare o personalizzare le impostazioni e le librerie necessarie quando viene creato il cluster.
Componenti facoltativi	Utilizza i componenti facoltativi per installare e configurare componenti aggiuntivi sul cluster. I componenti facoltativi vengono integrati con i componenti di Dataproc e offrono ambienti completamente configurati per Zeppelin, Presto e altri componenti software open source correlati all'ecosistema Apache Hadoop e Apache Spark.
Container e immagini personalizzati	È possibile eseguire il provisioning di Spark serverless Dataproc con container Docker personalizzati. Puoi eseguire il provisioning dei cluster Dataproc con un'immagine personalizzata che include i pacchetti del sistema operativo Linux preinstallati.
Macchine virtuali flessibili	I cluster possono utilizzare tipi di macchine personalizzate e macchine virtuali prerilasciabili per ottenere la dimensione perfetta per le proprie esigenze.
Modelli di flusso di lavoro	I modelli di flusso di lavoro di Dataproc offrono un meccanismo flessibile e facile da usare per la gestione e l'esecuzione dei flussi di lavoro. Un modello di flusso di lavoro è una configurazione del flusso di lavoro riutilizzabile che definisce un grafico di job con informazioni sul punto di esecuzione di questi job.
Gestione dei criteri automatizzata	Standardizza criteri di sicurezza, costi e infrastruttura su un parco risorse di cluster. Puoi creare criteri per la gestione delle risorse, la sicurezza o la rete a livello di progetto. Puoi anche semplificare per gli utenti l'utilizzo di immagini, componenti, metastore e altri servizi periferici corretti, in modo da gestire il tuo parco risorse di cluster e criteri Spark serverless in futuro.
Avvisi intelligenti	Gli avvisi consigliati di Dataproc consentono di regolare le soglie per gli avvisi preconfigurati in modo da ricevere avvisi sui cluster inattivi, in fase di esecuzione, sui job, sui cluster sovrautilizzati e altro ancora. I clienti possono personalizzare ulteriormente questi avvisi e persino creare funzionalità avanzate per la gestione di cluster e job. Queste funzionalità consentono ai clienti di gestire il proprio parco risorse su vasta scala.
Dataproc su Google Distributed Cloud (GDC)	Dataproc on GDC consente di eseguire Spark su GDC Edge Appliance nel tuo data center. Ora puoi utilizzare le stesse applicazioni Spark su Google Cloud e sui dati sensibili nel tuo data center.
Dataproc Metastore su più regioni	Dataproc Metastore è un metastore Hive (HMS) completamente gestito e ad alta disponibilità con controllo dell'accesso granulare. Dataproc Metastore su più regioni fornisce RE attivo-attivo e resilienza per far fronte alle interruzioni a livello di regione.

Prezzi

I prezzi di Dataproc si basano sul numero di vCPU e sul loro tempo di esecuzione. Mentre i prezzi mostrano la tariffa oraria, ti vengono addebitati i costi al secondo, pertanto paghi solo per quello che utilizzi.

Esempio: Un cluster con 6 nodi (1 principale 5 worker) di 4 CPU ciascuno in esecuzione per 2 ore costerebbe 0,48 $. Costo di Dataproc = numero di vCPU * ore * prezzo Dataproc = 24 * 2 * 0,01 $ = 0,48 $

Consulta la pagina dei prezzi per ulteriori dettagli.

Visualizza i dettagli dei prezzi

Partner

Dataproc si integra con partner fondamentali per estendere i tuoi investimenti e livelli di competenza esistenti.