Cette page a été traduite par l'API Cloud Translation.

Réplication

La réplication Cloud Data Fusion vous permet de répliquer vos données en continu et en temps réel à partir de datastores opérationnels, tels que SQL Server et MySQL dans BigQuery.

Pour utiliser la réplication, choisissez l'une des méthodes suivantes:

Créez une instance de Cloud Data Fusion et ajoutez le Application de réplication.
Ajoutez l'application de réplication à une instance existante.

Voici quelques-uns de ses avantages :

Identifier les incompatibilités de schéma, les problèmes de connectivité et les éléments manquants avant de démarrer la réplication, puis propose des mesures correctives.
Utiliser les données opérationnelles les plus récentes en temps réel à des fins d'analyse dans dans BigQuery. Vous utilisez la réplication basée sur les journaux directement dans BigQuery à partir de Microsoft SQL Server (à l'aide de SQL Server CDC) et de MySQL (en utilisant le journal binaire MySQL).
Capture des données modifiées (CDC, Change Data Capture) fournissant une représentation des données qui ont changé dans un flux, ce qui permet aux calculs et au traitement de se concentrer spécifiquement sur les enregistrements les plus récemment modifiés. Cela réduit les frais de données sortantes sur des systèmes de production sensibles.
Évolutivité d'entreprise prenant en charge de gros volumes de données transactionnelles Initial de données vers BigQuery sont compatibles avec Réplication d'instantané, pour préparer l'entrepôt de données à l'utilisation des modifications en continu. Une fois l'instantané initial effectué, les journaux à haut débit la réplication des modifications commence en temps réel.
Les tableaux de bord vous aident à obtenir des informations en temps réel sur les performances de réplication. Il est utile pour identifier les goulots d'étranglement et surveiller les SLA de diffusion des données.
Y compris la prise en charge de la résidence des données et des clés de chiffrement gérées par le client (CMEK) et VPC Service Controls. Intégration de Cloud Data Fusion dans Google Cloud garantit que votre entreprise bénéficie des plus hauts niveaux de sécurité la confidentialité est respectée lorsque les données les plus récentes sont disponibles dans vos données. à des fins d'analyse.

Tarifs recommandés

Lors de l'exécution de la réplication, l'utilisation de Dataproc vous est facturée et des frais de traitement BigQuery vous sont facturés. Pour optimiser ces coûts, nous vous recommandons vivement d'utiliser les tarifs forfaitaires de BigQuery.

Pour en savoir plus, consultez la page Tarifs de Cloud Data Fusion.

Entités de réplication

Entité	Description
Réplication	La réplication est une fonctionnalité de Cloud Data Fusion permettant de répliquer les données en continu avec une faible latence des datastores opérationnels aux entrepôts de données analytiques. Créez un de réplication en configurant une source et une cible avec des transformations facultatives.
Source	Lit les événements de modification de base de données, de table ou de colonne et les génère disponibles pour un traitement ultérieur dans un job de réplication. A le job de réplication contient une source, qui s'appuie sur une solution de capture des modifications pour fournir les modifications. Il peut y avoir plusieurs sources pour une base de données, chacune avec une solution de capture de changement différente. Une source est un module connectable créé à l'aide du plug-in de l'architecture CDAP. Si aucune source n'est disponible pour répondre à vos besoins, vous pouvez créer la vôtre en mettant en œuvre l'interface source, puis l'importer dans CDAP ou Cloud Data Fusion.
Cible	Écriture des modifications reçues d'une source dans une base de données cible. Un job de réplication contient une cible. Une cible est un module connectable créé à l'aide du plug-in de l'architecture CDAP. Si aucune cible n'est disponible pour répondre à vos besoins, vous pouvez créer la vôtre en mettant en œuvre l'interface cible, puis l'importer dans CDAP ou Cloud Data Fusion.
Propriétés de la source	Configure la source, y compris les détails de connexion, les noms de base de données et de table sources, les identifiants et d'autres propriétés.
Propriétés de la cible	Configure la cible, y compris les détails de connexion, les noms de base de données et de table cibles, les identifiants et d'autres propriétés.
Propriétés de la tâche de réplication	Il configure le job de réplication, y compris les seuils d'échec, les zones de transit, les notifications et les paramètres de validation.
Brouillon	Tâche de réplication partiellement terminée enregistrée. Lorsque définition du job de réplication est terminée. Vous pouvez donc le démarrer.
Événements	Événements de modification de la source à répliquer sur la cible. Événements incluent les insertions, les mises à jour, les suppressions et le LDD (langage de définition de données) des modifications.
Insérer	Ajout de nouveaux enregistrements dans la source.
Mettre à jour	Mise à jour vers les enregistrements existants dans la source.
Supprimer	Suppression des enregistrements existants dans la source.
Modification LDD	Un événement contenant une modification de schéma, telle qu'une modification du type de données ou du nom.
Journaux	Journaux opérationnels d'un job de réplication.
Détails de la tâche de réplication	Une page d'informations contenant des informations sur le job de réplication, telles que son état actuel, métriques opérationnelles, vue historique au fil du temps, validation des résultats et de sa configuration.
Tableau de bord	Page répertoriant l'état de toutes les activités de capture de données modifiées, y compris le débit, la latence, les taux d'échec et les résultats de validation.

Actions

Actions	Description
Déployer	Créer un job de réplication en suivant une interface Web pour spécifier une source, une cible et leur configuration.
Enregistrer	Enregistrer une tâche de réplication partiellement créée pour la reprendre création par la suite.
Supprimer	Supprimer un job de réplication existant Seuls les pipelines arrêtés peuvent être supprimés.
Démarrer	Démarrage d'une tâche de réplication... Si des changements doivent être apportés traité, la tâche de réplication passe à l'état "actif". sinon elle passe à l'état "en attente".
Arrêter	Arrêter une tâche de réplication. Le job de réplication arrête le traitement des modifications de la source.
Voir les journaux	Afficher les journaux d'un job de réplication à des fins de débogage ou une autre analyse.
Recherche	Rechercher un job de réplication par son nom, sa description ou d'autres métadonnées de job de réplication.
Évaluer	Évaluation de l'impact de la réplication avant de la démarrer. L'évaluation d'un job de réplication génère un rapport d'évaluation qui signale les incompatibilités de schéma et les fonctionnalités manquantes.

Surveillance

États des instances dupliquées	Description
Déployé	Le job de réplication est déployé, mais pas démarré. Dans cet état, un job de réplication ne réplique pas les événements.
Démarrage…	Le job de réplication est en cours d'initialisation et n'est pas prêts à répliquer vos modifications.
Running	Le job de réplication est démarré et est en cours de réplication des modifications.
Arrêt…	Le job de réplication s'arrête.
Arrêté	Le job de réplication est arrêté.
Échec	Le job de réplication a échoué en raison d'erreurs fatales.

États des tables

Concept	Description
Création d'instantanés	Le job de réplication prend un instantané de l'instance actuelle de la table avant de répliquer les modifications.
En cours de réplication	Le job de réplication réplique les modifications de la source dans la table de destination.
Échec	Le job de réplication ne parvient pas à répliquer les modifications du table source en raison d'une erreur.

Métriques

Concept	Description
Code inséré	Nombre d'insertions appliquées à la cible au cours de la période sélectionnée.
Mises à jour	Nombre de mises à jour appliquées à la cible au cours de la période sélectionnée.
Suppressions	Nombre de suppressions appliquées à la cible au cours de la période sélectionnée.
LDD	Nombre de modifications LDD appliquées à la cible au cours de la période sélectionnée.
Débit	Nombre d'événements et nombre d'octets répliqués sur la cible au cours de la période sélectionnée.
Latence	Latence à laquelle les données sont répliquées sur la cible dans la période sélectionnée.

Composants

Composant	Description
Service	Il supervise l'orchestration de bout en bout des jobs de réplication, et propose des fonctionnalités de conception, de déploiement, de gestion la surveillance des jobs de réplication. Il s'exécute dans le projet locataire Cloud Data Fusion (le projet locataire est masqué pour l'utilisateur). Son état s'affiche sur la page Administration système de l'interface Web Cloud Data Fusion.
Gestion de l'état	Le service gère l'état de chaque job de réplication dans un bucket Cloud Storage dans le projet client. Le bucket peut être configuré lors de la création du job de réplication. Il stocke les décalages actuels et l'état de réplication de chaque du job de réplication.
Exécution	Les clusters Dataproc fournissent l'environnement d'exécution de réplication, qui s'exécutent dans votre projet. des jobs de réplication s'exécutent Nœuds de calcul CDAP. La taille et les caractéristiques de l'exécution sont configurés avec des profils Compute Engine.
Base de données source	Base de données opérationnelle de production qui est répliquée dans votre base de données cible. Cette base de données peut être située sur site ou sur Google Cloud. La réplication Cloud Data Fusion est compatible avec les bases de données source MySQL, Microsoft SQL Server et Oracle.
Solution de suivi des modifications	Au lieu d'exécuter un agent sur la base de données source, Cloud Data Fusion s'appuie sur une solution de suivi des modifications pour lire les modifications dans la base de données source. La solution peut être un composant de la base de données source ou une solution tierce sous licence distincte. Dans ce dernier cas, la solution de suivi des modifications s'exécute sur site, avec la base de données source ou sur Google Cloud. Chaque source doit être associée à une solution de suivi des modifications. SQL Server Solution compatible :SQL Server CDC (tables de suivi des modifications) Autres logiciels : non Licence/Coût : non applicable Commentaires : SQL Server 2016 et versions ultérieures MySQL Solution compatible : Journal binaire MySQL Autres logiciels : non Licence/Coût : non applicable Commentaires : non applicable Oracle Solution compatible : Oracle LogMiner Autres logiciels : non Licence/Coût : non applicable Commentaires:consultez les Versions compatibles avec Datastream
Base de données cible	Emplacement de destination pour la réplication et l'analyse. Cloud Data Fusion est compatible avec la base de données cible BigQuery.
Authentification	Les mécanismes d'authentification varient en fonction de la base de données source ou du logiciel de suivi des modifications. Lorsque vous utilisez les fonctionnalités intégrées des bases de données sources, telles que SQL Server et MySQL, les connexions à la base de données sont utilisées pour l'authentification. Avec un logiciel de suivi des modifications, mécanisme d'authentification du logiciel est utilisé.

Connectivité

Le tableau suivant décrit les connexions réseau requises pour la réplication et les mécanismes de sécurité qu'elles utilisent.

De	To	Facultatif	Protocole	Réseau	Sécurité de l'authentification	Usage
Service (projet locataire)	Base de données source	Oui	Dépend de la source de réplication. JDBC pour la connexion directe à la base de données.	Appairage règles de pare-feu VPN/Interconnexion Routeur	Connexion à la base de données	Requis à la conception, mais pas à l'exécution. Fonctions : Liste des tables, évaluation (étapes facultatives ; la réplication peut se poursuivre sans elles)
Service (projet locataire)	Cloud Storage	Non	API Cloud	VPC SC	IAM	Gestion des états : décalages, états de réplication
Dataproc (votre projet)	Base de données source	Non	Dépend de la source. JDBC pour la connexion directe à la base de données.	Appairage règles de pare-feu VPN/Interconnexion Routeur	Connexion à la base de données	Requis au moment de l'exécution, pour lire les modifications apportées par la base de données source afin de les répliquer sur la cible
Dataproc (votre projet)	Cloud Storage	Non	API Cloud	VPC SC	IAM	Gestion des états : décalages, états de réplication
Dataproc (votre projet)	BigQuery	Non	API Cloud	VPC SC	IAM	Requis au moment de l'exécution pour appliquer les modifications de la base de données source à la cible

Étape suivante

Consultez la documentation de référence de l'API Replication.
Consultez la section Mappages de types de données pour la réplication.