Cloud Data Fusion – Übersicht

Cloud Data Fusion ist ein vollständig verwaltete, cloudnative Integrationsdienst zum schnellen Erstellen und Verwalten von Datenpipelines. Mit der Cloud Data Fusion-Weboberfläche können Sie skalierbare Datenintegrationslösungen erstellen. Sie können damit Verbindungen zu verschiedenen Datenquellen herstellen, die Daten transformieren an verschiedene Zielsysteme übertragen, ohne die und Infrastruktur.

Cloud Data Fusion basiert auf dem Open-Source-Projekt CDAP.

Erste Schritte mit Cloud Data Fusion

Sie können Cloud Data Fusion in wenigen Minuten erkunden.

Cloud Data Fusion kennenlernen

Die Hauptkomponenten von Cloud Data Fusion werden im Folgenden erläutert .

Mandantenprojekt

Die Dienste, die zum Erstellen und Orchestrieren von Cloud Data Fusion-Pipelines und zum Speichern von Pipeline-Metadaten erforderlich sind, werden in einem Mandantenprojekt in einer Mandanteneinheit bereitgestellt. Für jedes Kundenprojekt, in dem Cloud Data Fusion-Instanzen bereitgestellt werden, wird ein separates Mandantenprojekt erstellt. Das Mandantenprojekt übernimmt alle Netzwerk- und Firewallkonfigurationen aus dem Kundenprojekt abzurufen.

Cloud Data Fusion: Console

Die Cloud Data Fusion-Konsole, auch als Steuerungsebene bezeichnet, ist ein Reihe von API-Vorgängen und eine Weboberfläche für die Cloud Data Fusion-Instanz selbst, erstellen, löschen, neu starten und aktualisieren.

Cloud Data Fusion: Studio

Cloud Data Fusion Studio, auch als Datenebene bezeichnet, besteht aus einer REST API und Weboberfläche die Erstellung, Ausführung und Verwaltung von Pipelines und verwandten Artefakten.

Konzepte

In diesem Abschnitt werden einige der Kernkonzepte von Cloud Data Fusion vorgestellt.

Konzept Beschreibung
Cloud Data Fusion-Instanz
  • Eine Cloud Data Fusion-Instanz ist eine einzigartige Bereitstellung von Cloud Data Fusion. Für den Einstieg in Cloud Data Fusion Erstellen einer Cloud Data Fusion-Instanz über die Google Cloud Console
  • Sie können mehrere Instanzen in einer einzigen Google Cloud Console erstellen Projekt und kann die Google Cloud-Region zum Erstellen des Cloud Data Fusion-Instanzen enthält.
  • Basierend auf Ihren Anforderungen und Kostenbeschränkungen können Sie Entwickler, Basic oder Enterprise Instanz.
  • Jede Cloud Data Fusion-Instanz enthält eine eindeutige, unabhängige Cloud Data Fusion-Bereitstellung, die eine Reihe von Diensten enthält, die Verwaltung des Pipelinelebenszyklus, Orchestrierung, Koordination und Metadatenmanagement. Diese Dienste werden mit lang andauernden Ressourcen Mandantenprojekt
Namespace Ein Namespace ist eine logische Gruppierung von Anwendungen, Daten und den zugehörigen Metadaten in einer Cloud Data Fusion-Instanz. Sie können darüber nachdenken, von Namespaces als Partitionierung der Instanz. In einer einzelnen Instanz speichert ein Namespace die Daten und Metadaten einer Entität unabhängig von einem anderen Namespace.
Pipeline 
  • Eine Pipeline ist eine Möglichkeit, Daten visuell zu gestalten und zu steuern, zum Extrahieren, Transformieren, Kombinieren, Aggregieren und Laden von Daten aus lokalen und Cloud-Datenquellen.
  • Mit Pipelines können Sie komplexe Datenverarbeitungen erstellen Workflows, die Ihnen bei der Datenaufnahme, -integration und Migrationsprobleme. Mit Cloud Data Fusion können Sie sowohl Batch- und Echtzeitpipelines verwendet werden.
  • Mit Pipelines können Sie Ihre Workflows zur Datenverarbeitung logischen Datenfluss, während Cloud Data Fusion alle Funktionen, die für die Ausführung in einer Ausführung erforderlich sind. zu verbessern.
Pipelineknoten
  • Gehen Sie auf der Studio-Seite der Weboberfläche von Cloud Data Fusion so vor: Pipelines werden als eine Reihe von Knoten dargestellt, die in einem Der azyklische Graph (DAG) bildet einen einseitigen Fluss.
  • Knoten stehen für die verschiedenen Aktionen, die Sie mit Ihrem z. B. das Lesen aus Quellen, das Durchführen von Daten Transformationen und Schreiben der Ausgabe in Senken. Sie können Daten entwickeln, Pipelines in der Weboberfläche von Cloud Data Fusion durch Quellen, Transformationen, Senken und anderen Knoten.
Plug-in 
  • Plug-ins sind anpassbare Module, mit denen die Funktionen von Cloud Data Fusion erweitert werden können.
  • Cloud Data Fusion bietet Plug-ins für Quellen, Transformationen, Aggregaten, Senken, Fehler-Collectors, Benachrichtigungs-Publishern, Aktionen und Aktionen nach der Ausführung.
  • Ein Plug-in wird manchmal als Knoten bezeichnet. der Weboberfläche von Cloud Data Fusion.
  • Informationen zu den beliebten Cloud Data Fusion-Plug-ins finden Sie unter Cloud Data Fusion-Plug-ins.
Hub Um Plug-ins in der Weboberfläche von Cloud Data Fusion zu durchsuchen, fügen Sie Pipelines und andere Integrationen auf Hub. Wenn eine neue Version eines Plug-ins veröffentlicht wird, ist sie jederzeit im Hub sichtbar. die kompatibel ist. Dies gilt auch dann, wenn die Instanz vor dem das Plug-in veröffentlicht wurde.
Pipeline-Vorschau 
  • Mit Cloud Data Fusion Studio können Sie die Genauigkeit mithilfe von Preview (Vorschau) für die Teilmenge der Daten ausführen.
  • Eine Pipeline in der Vorabversion wird im Mandantenprojekt ausgeführt.
Pipelineausführung
  • Cloud Data Fusion erstellt sitzungsspezifische Ausführungsumgebungen, Pipelines ausführen.
  • Cloud Data Fusion unterstützt Dataproc als Ausführungsumgebung.
  • Cloud Data Fusion stellt eine sitzungsspezifische Dataproc-Cluster in Ihrem Kundenprojekt am einer Pipelineausführung beginnen, führt die Pipeline mit Spark in der Cluster erstellt und löscht den Cluster, nachdem die Pipelineausführung abgeschlossen ist.
  • Alternativ, wenn Sie Ihre Dataproc-Cluster verwalten in kontrollierten Umgebungen mithilfe von Technologien wie Terraform Sie können Cloud Data Fusion auch so konfigurieren, dass keine Cluster bereitgestellt werden. In Umgebungen können Sie Pipelines für vorhandene Dataproc-Cluster
Compute-Profil
  • Ein Computing-Profil gibt an, wie und wo eine Pipeline ausgeführt haben. Ein Profil enthält alle Informationen, die für die Einrichtung und die physische Ausführungsumgebung einer Pipeline löschen.
  • Ein Computing-Profil enthält beispielsweise Folgendes:
    • Bereitsteller der Ausführung
    • Ressourcen (Arbeitsspeicher und CPU)
    • Mindest- und Höchstzahl von Knoten
    • Andere Werte
  • Ein Profil wird namentlich identifiziert und muss einem Bereitsteller zugewiesen werden und der zugehörigen Konfiguration. Ein Profil kann entweder im Cloud Data Fusion-Instanzebene oder auf Namespace-Ebene.
  • Das standardmäßige Computing-Profil von Cloud Data Fusion ist Autoscaling.
Wiederverwendbare Pipeline
  • Wiederverwendbare Datenpipelines in Cloud Data Fusion ermöglichen das Erstellen einer einzelnen Pipeline, die ein Datenintegrationsmuster auf eine Anwendungsfälle und Datasets.
  • Wiederverwendbare Pipelines bieten eine bessere Verwaltung, da die meisten die Konfiguration einer Pipeline zur Ausführungszeit anzupassen, bei der Entwicklung hartcodiert.
Trigger 
  • Cloud Data Fusion unterstützt das Erstellen eines Triggers für Daten (auch nachgelagerte Pipeline genannt), um sie bei die Fertigstellung einer oder mehrerer verschiedener Pipelines (sogenannte vorgelagerte Pipelines Pipelines) Sie entscheiden, wann die nachgelagerte Pipeline ausgeführt wird – für z. B. bei Erfolg, Misserfolg, Stopp oder einer beliebigen Kombination davon der vorgelagerten Pipelineausführung.
  • Trigger sind in folgenden Fällen nützlich:
    • Daten einmalig bereinigt und dann für andere Nutzer zur Nutzung mehrerer nachgelagerter Pipelines.
    • Freigabeinformationen wie Laufzeitargumente und Plug-in Konfigurationen zwischen Pipelines. Dies wird als Nutzlast Konfiguration.
    • Sie haben eine Reihe dynamischer Pipelines, die mit den Daten von Stunde, Tag, Woche oder Monat ausgeführt werden können, anstelle einer statischen Pipeline, die bei jeder Ausführung aktualisiert werden muss.

Cloud Data Fusion-Ressourcen

Erkunden Sie Ressourcen zu Cloud Data Fusion:

Nächste Schritte