Ejecuta trabajos de Spark con DataprocFileOutputCommitter
Organiza tus páginas con colecciones
Guarda y categoriza el contenido según tus preferencias.
La función DataprocFileOutputCommitter es una función
versión del código abierto FileOutputCommitter. Integra
habilita operaciones de escritura simultáneas de trabajos de Apache Spark en una ubicación de salida.
Limitaciones
La función DataprocFileOutputCommitter es compatible con los trabajos de Spark que se ejecutan en
Clústeres de Compute Engine de Dataproc creados con
las siguientes versiones de imágenes:
Establece spark.hadoop.mapreduce.outputcommitter.factory.class=org.apache.hadoop.mapreduce.lib.output.DataprocFileOutputCommitterFactory y spark.hadoop.mapreduce.fileoutputcommitter.marksuccessfuljobs=false como una propiedad de trabajo cuando envíes un trabajo de Spark al clúster.
Ejemplo de Google Cloud CLI:
gcloud dataproc jobs submit spark \
--properties=spark.hadoop.mapreduce.outputcommitter.factory.class=org.apache.hadoop.mapreduce.lib.output.DataprocFileOutputCommitterFactory,spark.hadoop.mapreduce.fileoutputcommitter.marksuccessfuljobs=false \
--region=REGION \
other args ...