Comment hiérarchisez-vous la qualité des données ?
La qualité des données est la mesure dans laquelle les données répondent aux attentes et aux exigences de leurs utilisateurs et intervenants. Une mauvaise qualité des données peut entraîner une analyse inexacte, des décisions trompeuses, un gaspillage des ressources et une réputation entachée. Par conséquent, la priorisation de la qualité des données est essentielle pour tout projet ou processus analytique. Mais comment décidez-vous quels aspects de la qualité des données sont plus importants que d’autres ? Voici quelques conseils pour vous aider à hiérarchiser la qualité des données de manière efficace et efficiente.
La première étape pour hiérarchiser la qualité des données consiste à évaluer l’impact des erreurs, des incohérences ou des lacunes sur vos objectifs, vos résultats et vos parties prenantes. Par exemple, vous pouvez vous poser des questions telles que : Dans quelle mesure ces données sont-elles essentielles pour votre analyse ? Comment la qualité des données affectera-t-elle vos résultats et vos recommandations? Dans quelle mesure ces données sont-elles sensibles à votre public et à ses attentes ? Dans quelle mesure est-il coûteux ou risqué de résoudre ou d’ignorer les problèmes de qualité des données ? En répondant à ces questions, vous pouvez identifier les problèmes de qualité des données les plus importants et les plus urgents qui nécessitent votre attention.
-
One of the most common data quality issues is missing data. Start by identifying the extent and patterns of missingness. Employ techniques like mean imputation, replacing missing values with the mean of the variable, for numerical data. For categorical data, mode imputation can be used. Consider advanced methods like regression imputation or k-nearest neighbors for complex scenarios. Alternatively, analyze variables' importance before deciding to impute. If missingness is substantial, evaluate if data is Missing Completely at Random, Missing at Random, or Not Missing at Random. Techniques like multiple imputation or using ML models can address missing data more effectively. Transparency is key. Document your methods.
-
Based on my graduate studies in statistics, I start with bootstrapping when the data set isn't large enough for standard deviation testing. Similar to graphing an equation, there are usually a number of implied data points that will satisfy a statistical query.
-
To get quality data from people (operators and maintainers) or field technicians, data owners must explain data relevance and impact on the decision making process. Looks like a big job to do but when it’s factored into orientations before people are given check list or tablets to enter data points, it will improve data quality and reduce errors.
La deuxième étape pour hiérarchiser la qualité des données consiste à définir les dimensions ou les critères que vous utiliserez pour mesurer et évaluer la qualité des données. Il existe de nombreuses dimensions possibles de la qualité des données, telles que l’exactitude, l’exhaustivité, la cohérence, l’actualité, la validité, la fiabilité et la pertinence. Cependant, toutes les dimensions ne sont pas également pertinentes ou importantes pour chaque ensemble de données ou cas d’utilisation. Par conséquent, vous devez sélectionner les dimensions qui correspondent à votre objectif, à votre contexte et à vos normes. Par exemple, vous pouvez utiliser un cadre de qualité des données, tel que celui proposé par la Data Management Association (DAMA), pour guider votre sélection.
La troisième étape pour hiérarchiser la qualité des données consiste à appliquer les techniques ou méthodes que vous utiliserez pour évaluer et améliorer la qualité des données. Il existe de nombreuses techniques possibles pour la gestion de la qualité des données, telles que le profilage des données, le nettoyage des données, la validation des données, l’intégration des données, l’enrichissement des données et la surveillance des données. Cependant, toutes les techniques ne sont pas également réalisables ou efficaces pour chaque ensemble de données ou situation. Par conséquent, vous devez choisir les techniques qui conviennent à vos ressources, contraintes et objectifs. Par exemple, vous pouvez utiliser une analyse coûts-avantages, une évaluation des risques ou une matrice de priorisation pour vous aider à décider.
La quatrième étape pour prioriser la qualité des données consiste à communiquer les résultats de votre évaluation et de votre amélioration de la qualité des données à vos parties prenantes. Ceci est important pour assurer la transparence, la responsabilité et l’alignement entre les personnes impliquées ou affectées par vos données et analyses. Par exemple, vous pouvez utiliser des rapports sur la qualité des données, des tableaux de bord ou des cartes de performance pour communiquer l’état actuel, la progression et les problèmes de qualité des données. Vous pouvez également utiliser des métadonnées, de la documentation ou des annotations sur la qualité des données pour communiquer les sources, les méthodes et les hypothèses de qualité des données.
-
This is another key step. You can use data provided by several departments for whatever analysis and decision making and some people may not be bothered if they provided you with insufficient data or wrong data. But as soon as you communicate feedback, immediately your data sees clarity and everyone wants to help you steer your data to achieve the desired outcome and company objectives.
La cinquième étape pour prioriser la qualité des données consiste à mettre en œuvre les commentaires ou les suggestions que vous recevez de vos parties prenantes ou utilisateurs concernant la qualité des données. Ceci est important pour assurer l’amélioration continue, l’apprentissage et l’adaptation de votre processus de gestion de la qualité des données. Par exemple, vous pouvez utiliser des enquêtes, des entretiens ou des groupes de discussion pour recueillir des commentaires sur la qualité des données. Vous pouvez également utiliser des mesures, des indicateurs ou des bancs d’essai de la qualité des données pour surveiller les commentaires sur la qualité des données. Vous pouvez ensuite utiliser ces commentaires pour identifier des problèmes, des priorités ou des solutions nouveaux ou changeants en matière de qualité des données.
La sixième étape pour hiérarchiser la qualité des données consiste à examiner le processus ou l’approche que vous utilisez pour hiérarchiser la qualité des données. Ceci est important pour garantir la cohérence, l’efficience et l’efficacité de votre processus de gestion de la qualité des données. Par exemple, vous pouvez utiliser des audits, des évaluations ou des révisions pour évaluer les forces, les faiblesses, les opportunités et les menaces de votre processus de gestion de la qualité des données. Vous pouvez également utiliser les meilleures pratiques, les normes ou les directives pour comparer et améliorer votre processus de gestion de la qualité des données. Vous pouvez ensuite utiliser cet examen pour affiner ou réviser vos priorités, dimensions, techniques, résultats, commentaires ou processus en matière de qualité des données.
-
Considering data quality is something that should be very much embedded in the scientist's mindset. When one has the opportunity to collect data of any kind, that's one of the first filtering opportunities to achieve quality data. One should think of data quality at the conception of the process by carefully choosing the methods and tools but also anticipating any complexities that the process of data collection may suffer. The purpose of that would be to avoid collecting poor data. Someone referred to this once to me as: garbage in, garbage out.
-
Data quality is utmost important to make decisions at organizational level when it comes to risk management When it comes to derivative trading analysis for risk management below are checks one should do How the data is derived of various products thay are traded ,is it manually done or system oriented If the booking are done correctly ,valuation and profit and loss, realized and unrealized would be accurate Nav process will be accurate that would be published to investors Credit risk , market risk , interest risk, operational risk, interest and currency risk all are hegde based on the data that gets pulled out by the system . . If there is a flaw in the data, risk management will fail leading to financial losses
Notez cet article
Lecture plus pertinente
-
Qualité des donnéesComment faites-vous correspondre les objectifs de qualité des données aux besoins des parties prenantes ?
-
Qualité des donnéesComment évaluez-vous l’impact et la valeur des initiatives et des interventions sur la qualité des données?
-
Gouvernance de donnéesQuel est le moyen le plus rapide d’améliorer les évaluations de la qualité des données ?
-
Nettoyage de donnéesComment mettez-vous à jour et maintenez-vous la qualité de vos données au fil du temps ?