Mit Sammlungen den Überblick behalten
Sie können Inhalte basierend auf Ihren Einstellungen speichern und kategorisieren.
Cloud Data Fusion ist ein vollständig verwaltete, cloudnative
Integrationsdienst zum schnellen Erstellen und Verwalten von Datenpipelines. Mit der Cloud Data Fusion-Weboberfläche können Sie skalierbare Datenintegrationslösungen erstellen. Sie können damit Verbindungen zu
verschiedenen Datenquellen herstellen, die Daten transformieren
an verschiedene Zielsysteme übertragen, ohne die
und Infrastruktur.
Cloud Data Fusion basiert auf dem Open-Source-Projekt CDAP.
Erste Schritte mit Cloud Data Fusion
Sie können Cloud Data Fusion in wenigen Minuten erkunden.
Konzepte: Den Schlüssel verstehen
Terminologie, die in Cloud Data Fusion verwendet wird.
Schnellstart: Lernen Sie Cloud Data Fusion kennen, indem Sie Ihre erste
Pipeline
Cloud Data Fusion kennenlernen
Die Hauptkomponenten von Cloud Data Fusion werden im Folgenden erläutert
.
Mandantenprojekt
Die Dienste, die zum Erstellen und Orchestrieren von Cloud Data Fusion-Pipelines und zum Speichern von Pipeline-Metadaten erforderlich sind, werden in einem Mandantenprojekt in einer Mandanteneinheit bereitgestellt. Für jedes Kundenprojekt, in dem Cloud Data Fusion-Instanzen bereitgestellt werden, wird ein separates Mandantenprojekt erstellt. Das Mandantenprojekt übernimmt
alle Netzwerk- und Firewallkonfigurationen
aus dem Kundenprojekt abzurufen.
Cloud Data Fusion: Console
Die Cloud Data Fusion-Konsole, auch als Steuerungsebene bezeichnet, ist ein
Reihe von API-Vorgängen
und eine Weboberfläche für
die Cloud Data Fusion-Instanz selbst,
erstellen, löschen, neu starten und aktualisieren.
Cloud Data Fusion: Studio
Cloud Data Fusion Studio, auch als Datenebene bezeichnet, besteht aus einer
REST API und Weboberfläche
die Erstellung, Ausführung und Verwaltung von Pipelines und
verwandten Artefakten.
Konzepte
In diesem Abschnitt werden einige der Kernkonzepte von Cloud Data Fusion vorgestellt.
Eine Cloud Data Fusion-Instanz ist eine einzigartige Bereitstellung von
Cloud Data Fusion. Für den Einstieg in Cloud Data Fusion
Erstellen einer Cloud Data Fusion-Instanz über die
Google Cloud Console
Sie können mehrere Instanzen in einer einzigen Google Cloud Console erstellen
Projekt und kann die Google Cloud-Region zum Erstellen des
Cloud Data Fusion-Instanzen enthält.
Jede Cloud Data Fusion-Instanz enthält eine eindeutige, unabhängige
Cloud Data Fusion-Bereitstellung, die eine Reihe von Diensten enthält,
die Verwaltung des Pipelinelebenszyklus, Orchestrierung,
Koordination und Metadatenmanagement. Diese Dienste werden mit
lang andauernden Ressourcen
Mandantenprojekt
Ein Namespace ist eine logische Gruppierung von Anwendungen, Daten und den zugehörigen Metadaten in einer Cloud Data Fusion-Instanz. Sie können darüber nachdenken,
von Namespaces als Partitionierung der Instanz. In einer einzelnen Instanz speichert ein Namespace die Daten und Metadaten einer Entität unabhängig von einem anderen Namespace.
Eine Pipeline ist eine Möglichkeit, Daten visuell zu gestalten und zu steuern,
zum Extrahieren, Transformieren, Kombinieren, Aggregieren und Laden von Daten aus
lokalen und Cloud-Datenquellen.
Mit Pipelines können Sie komplexe Datenverarbeitungen erstellen
Workflows, die Ihnen bei der Datenaufnahme, -integration und
Migrationsprobleme. Mit Cloud Data Fusion können Sie sowohl
Batch- und Echtzeitpipelines
verwendet werden.
Mit Pipelines können Sie Ihre Workflows zur Datenverarbeitung
logischen Datenfluss, während Cloud Data Fusion alle
Funktionen, die für die Ausführung in einer Ausführung erforderlich sind.
zu verbessern.
Gehen Sie auf der Studio-Seite der Weboberfläche von Cloud Data Fusion so vor:
Pipelines werden als eine Reihe von Knoten dargestellt, die in einem
Der azyklische Graph (DAG) bildet einen einseitigen Fluss.
Knoten stehen für die verschiedenen Aktionen, die Sie mit Ihrem
z. B. das Lesen aus Quellen, das Durchführen von Daten
Transformationen und Schreiben der Ausgabe in Senken. Sie können Daten entwickeln,
Pipelines in der Weboberfläche von Cloud Data Fusion durch
Quellen, Transformationen, Senken und anderen Knoten.
Plug-ins sind anpassbare Module, mit denen die Funktionen von Cloud Data Fusion erweitert werden können.
Cloud Data Fusion bietet Plug-ins für Quellen, Transformationen,
Aggregaten, Senken, Fehler-Collectors, Benachrichtigungs-Publishern, Aktionen und
Aktionen nach der Ausführung.
Ein Plug-in wird manchmal als Knoten bezeichnet.
der Weboberfläche von Cloud Data Fusion.
Um Plug-ins in der Weboberfläche von Cloud Data Fusion zu durchsuchen, fügen Sie
Pipelines und andere Integrationen auf Hub. Wenn eine neue
Version eines Plug-ins veröffentlicht wird, ist sie jederzeit im Hub sichtbar.
die kompatibel ist. Dies gilt auch dann, wenn die Instanz vor dem
das Plug-in veröffentlicht wurde.
Cloud Data Fusion erstellt sitzungsspezifische
Ausführungsumgebungen,
Pipelines ausführen.
Cloud Data Fusion unterstützt Dataproc als Ausführungsumgebung.
Cloud Data Fusion stellt eine sitzungsspezifische
Dataproc-Cluster in Ihrem Kundenprojekt am
einer Pipelineausführung beginnen, führt die Pipeline mit Spark in der
Cluster erstellt und löscht den Cluster, nachdem die Pipelineausführung
abgeschlossen ist.
Alternativ, wenn Sie Ihre Dataproc-Cluster verwalten
in kontrollierten Umgebungen mithilfe von Technologien wie Terraform
Sie können Cloud Data Fusion auch so konfigurieren, dass keine Cluster bereitgestellt werden. In
Umgebungen können Sie Pipelines für vorhandene
Dataproc-Cluster
Ein Computing-Profil gibt an, wie und wo eine Pipeline
ausgeführt haben. Ein Profil enthält alle Informationen, die für die Einrichtung und
die physische Ausführungsumgebung einer Pipeline löschen.
Ein Computing-Profil enthält beispielsweise Folgendes:
Bereitsteller der Ausführung
Ressourcen (Arbeitsspeicher und CPU)
Mindest- und Höchstzahl von Knoten
Andere Werte
Ein Profil wird namentlich identifiziert und muss einem Bereitsteller zugewiesen werden
und der zugehörigen Konfiguration. Ein Profil kann entweder im
Cloud Data Fusion-Instanzebene oder auf Namespace-Ebene.
Das standardmäßige Computing-Profil von Cloud Data Fusion ist
Autoscaling.
Wiederverwendbare Datenpipelines in Cloud Data Fusion ermöglichen das Erstellen
einer einzelnen Pipeline, die ein Datenintegrationsmuster auf eine
Anwendungsfälle und Datasets.
Wiederverwendbare Pipelines bieten eine bessere Verwaltung, da die meisten
die Konfiguration einer Pipeline
zur Ausführungszeit anzupassen,
bei der Entwicklung hartcodiert.
Cloud Data Fusion unterstützt das Erstellen eines Triggers für Daten
(auch nachgelagerte Pipeline genannt), um sie bei
die Fertigstellung einer oder mehrerer verschiedener Pipelines (sogenannte vorgelagerte Pipelines
Pipelines) Sie entscheiden, wann die nachgelagerte Pipeline ausgeführt wird – für
z. B. bei Erfolg, Misserfolg, Stopp oder einer beliebigen Kombination davon
der vorgelagerten Pipelineausführung.
Trigger sind in folgenden Fällen nützlich:
Daten einmalig bereinigt und dann für andere Nutzer
zur Nutzung mehrerer nachgelagerter Pipelines.
Freigabeinformationen wie Laufzeitargumente und Plug-in
Konfigurationen zwischen Pipelines. Dies wird als Nutzlast
Konfiguration.
Sie haben eine Reihe dynamischer Pipelines, die mit den Daten von Stunde, Tag, Woche oder Monat ausgeführt werden können, anstelle einer statischen Pipeline, die bei jeder Ausführung aktualisiert werden muss.
Cloud Data Fusion-Ressourcen
Erkunden Sie Ressourcen zu Cloud Data Fusion:
Änderungen in den Versionshinweisen
Logs zu Funktionen, Änderungen und verworfenen Funktionen