Amazon DataZone: rilevamento automatico dei dati

Panoramica

Nessuna necessità di inserimento manuale degli attributi dei dati nel catalogo dati, riducendo così il rischio di errori. Generazione di un contesto aziendale e consigli di analisi per i set di dati, il che determina un miglioramento dei risultati della scoperta dei dati. Scopri da dove provengono i tuoi dati e quali origini saranno influenzate dalle modifiche. Inoltre, un aumento della ricchezza dei dati nel catalogo aziendale migliora anche l'esperienza di ricerca. Riduzione del tempo dedicato alla ricerca e all'utilizzo dei dati da alcune settimane a pochi giorni.

Caratteristiche principali

Il catalogo di dati aziendali di Amazon DataZone funge da registro organizzativo federato in cui i metadati tecnici possono essere pubblicati come risorse ed è possibile aggiungere un contesto aziendale arricchito. Puoi rendere i dati visibili con il contesto aziendale affinché tutti gli utenti possano trovarli, comprenderli e fidarsi di essi in modo semplice e rapido.

L'aggiunta di nomi e descrizioni delle aziende ai dati è automatizzata, agevolando la comprensione del contesto ed evitando nomi tecnici che possono risultare criptici. Questa automazione è supportata da modelli linguistici di grandi dimensioni (LLM) per aumentare la precisione e la coerenza. 

La ricerca con facet si integra al catalogo di dati aziendali per aiutare i consumatori e i produttori di dati a trovare risorse di dati utilizzando informazioni strutturali familiari, come nomi di tabelle e colonne, nonché termini commerciali.

Per ogni set di dati, è possibile generare un elenco delle colonne con dati più preziosi e dei probabili utilizzi delle analisi. 

Con le statistiche sulla qualità dei dati in Amazon DataZone, i consumatori di dati possono visualizzare i parametri di qualità dei dati provenienti da sistemi di qualità dei dati di AWS Glue o di terze parti. I consumatori di dati possono fidarsi delle origini dati che utilizzano per le decisioni e avere un contesto di qualità dei dati mentre ricercano le risorse. I produttori e i team IT possono anche utilizzare le API per incorporare le statistiche sulla qualità dei dati provenienti da sistemi di terze parti in un portale unificato fuori dalla console. I produttori di dati possono introdurre i risultati della qualità dei dati di AWS Glue in base a una pianificazione per assicurarsi che i punteggi siano aggiornati, anche se i dati continuano a cambiare.

Comprendi il movimento dei dati nel tempo. La derivazione dei dati può aumentare l'attendibilità e la comprensione dei dati dell’organizzazione aiutando i clienti a capire da dove provengono i dati, come sono cambiati e il loro consumo. Puoi ridurre il tempo impiegato nella mappatura di un asset di dati e delle sue relazioni, nella risoluzione dei problemi e nello sviluppo di pipeline, così come nell'applicazione delle pratiche di governance dei dati.

Raggruppa le risorse di dati in pacchetti definiti (prodotti di dati) su misura per casi d'uso aziendali specifici; in questo modo semplificherai la catalogazione e permetterai ai consumatori di dati di scoprire e abbonarsi facilmente ai dati. I produttori di dati possono curare una raccolta di risorse pertinenti, aggiungere un contesto aziendale e pubblicarlo come unità di prodotto di dati. Ciò semplifica il processo per i consumatori di dati di individuare tutte le risorse di dati necessarie per particolari casi d'uso. I consumatori possono abbonarsi a tutte le risorse all'interno di un prodotto di dati tramite un unico flusso di lavoro di approvazione. I produttori di dati possono gestire il ciclo di vita del prodotto, tra cui la modifica della raccolta di risorse, l'annullamento della pubblicazione, l'eliminazione e la gestione degli abbonamenti. Amazon DataZone offre anche il supporto API per i flussi di lavoro dei prodotti di dati, facilitando l'integrazione e l'automazione.

Casi d'uso

Riduci il tempo dedicato agli approfondimenti trovando i dati adatti, nel contesto giusto. I dati possono essere considerati affidabili solo se sono coerenti, accurati, completi, tempestivi e tracciabili e hanno un punteggio di qualità dei dati trasparente. Con la proprietà distribuita, ogni reparto o team di analisi mantiene la responsabilità delle proprie risorse, garantendo che i consumatori di dati abbiano la certezza di utilizzare i dati adatti.

Crea un catalogo di dati aziendali attraverso il crawling delle risorse e inserendo i metadati tecnici (non i dati effettivi) da arricchire con il contesto aziendale. Il contesto aziendale può essere arricchito con glossari e termini standardizzati. Puoi anche personalizzare metadati aggiuntivi con moduli di metadati.

Per utilizzare i dati in modo appropriato, è necessario avere una comprensione del contesto in cui essi si inseriscono. Amazon DataZone aiuta a definire tale contesto per tutti i dati catalogati attraverso glossari e moduli di metadati. Pertanto, il proprietario dei dati può condividere tutte le informazioni necessarie per stabilire il contesto dei dati, consentendo così all'utente di individuarli, comprenderli e sottoscriverli. Il punteggio di qualità dei dati consente ai consumatori di dati a capire se una risorsa di dati è adatta allo scopo.

Riduci il tempo dedicato alla mappatura degli asset di dati e delle loro relazioni, alla risoluzione dei problemi e allo sviluppo di pipeline, così come all'applicazione delle pratiche di governance dei dati. Attraverso un'esperienza grafica, gli utenti dei dati comprendono l'origine dell'asset. I produttori di dati possono valutare l'effetto delle modifiche su una tabella o colonna comprendendo quali sistemi o utenti utilizzano i dati (analisi dell'impatto). I produttori possono anche risolvere i problemi relativi ai dati esaminando gli snapshot della derivazione di un asset di dati per individuare la fonte dell'errore. Amazon DataZone visualizza la derivazione dei dati acquisita dagli eventi OpenLineage, uno standard aperto per la raccolta delle derivazioni, ma può anche acquisire mappature di derivazione personalizzate. La derivazione aiuta i produttori di dati a includere informazioni sulla derivazione durante la condivisione dei dati, il che aumenta la fiducia nelle origini dati.

Video

AWS re:Invent 2023 - How to build a business catalog with Amazon DataZone (21:37)
AWS re:Invent 2023 - Understand your data with business context (55:40)

Domande frequenti

Che tipo di informazioni si trovano nel catalogo di dati aziendali di Amazon DataZone?

Nel catalogo dei dati aziendali di Amazon DataZone, i metadati aziendali forniscono informazioni create o utilizzate dai membri dell’azienda e forniscono un contesto ai dati organizzativi. Ciò potrebbe includere le seguenti informazioni:

  • Proprietà: le moderne organizzazioni incentrate sui dati utilizzano un processo di gestione dei dati distribuito in cui le linee di business (LOB) sono responsabili della gestione dei propri dati. Un catalogo tiene traccia di tale proprietà in modo che le parti interessate possano trovare e richiedere l'accesso ai dati nell'ambito delle loro attività aziendali.
  • Classificazione: il rilevamento dei dati è un'attività chiave che i metadati aziendali possono supportare. Questo processo utilizza ontologie e tassonomie aziendali definite centralmente per classificare le origini dati e aiuta a trovare oggetti di dati pertinenti.
  • Relazioni: puoi utilizzare il catalogo di dati aziendali di Amazon DataZone per aggiungere informazioni sulle relazioni come metadati. Come per uno schema di set di dati tecnici, il catalogo di dati aziendali mostra le relazioni tra gli oggetti del catalogo, ad esempio quelle tra database, set di dati e le relative colonne.
  • Schema: i suggerimenti dell'IA per le descrizioni possono utilizzare lo schema tecnico e aziendale per generare descrizioni e utilizzi consigliati per i dati.
  • Origine e consumo: la derivazione dei dati e l'analisi dell'impatto, nonché le mappature personalizzate di OpenLineage, sono collegate al catalogo dei dati aziendali.

Cosa posso catalogare con Amazon DataZone?

Amazon DataZone supporta le risorse di dati pubblicati direttamente dal Catalogo dati AWS Glue e Amazon Redshift. Queste due origini possono essere utilizzate per catalogare i dati nelle seguenti posizioni:

  • Data lake Amazon Simple Storage Service (Amazon S3)
  • Molti dei database AWS dedicati come Amazon Relational Database Service (Amazon RDS) tramite un crawler AWS Glue
  • Oltre 100 connettori Amazon AppFlow, per importare dati da applicazioni di terze parti come Snowflake, Salesforce e Google Analytics