Que signifient les données sales ?
Les données sales font référence à des données contenant des informations erronées. Il peut également être utilisé pour faire référence à des données en mémoire et non encore chargées dans une base de données. La suppression complète des données sales d’une source est peu pratique, voire pratiquement impossible.
Les données suivantes peuvent être considérées comme des données sales :
- Données trompeuses
- Données en double
- Données incorrectes
- Données inexactes
- Données non intégrées
- Données qui violent les règles métier
- Données sans formatage généralisé
- Données mal ponctuées ou mal orthographiées
Weendoz explique les données sales
En plus d'une saisie de données incorrecte, des données sales peuvent être générées en raison de méthodes inappropriées de gestion et de stockage des données. Certains types de données sales sont expliqués ci-dessous :
- Données incorrectes – Pour garantir que les données sont valides ou correctes, la valeur saisie doit être conforme aux valeurs valides du champ. Par exemple, la valeur saisie dans le champ Mois doit être comprise entre 1 et 12, ou l'âge d'un individu doit être inférieur à 130 ans. L'exactitude de la valeur des données peut être assurée par programme au moyen de tables de recherche ou de contrôles d'édition.
- Données inexactes – Il est possible qu'une valeur de donnée soit correcte, mais pas exacte. Parfois, il est pratique d'examiner d'autres fichiers ou champs pour savoir si la valeur des données est exacte en fonction du contexte dans lequel elles sont utilisées. Pourtant, la précision ne peut souvent être validée que par une vérification manuelle.
- Violations des règles métier – Les données qui enfreignent les règles métier sont un autre type de données sales. Par exemple, une date d’entrée en vigueur doit toujours être antérieure à une date d’expiration. Un autre exemple de violation des règles commerciales peut être la réclamation d'un patient à l'assurance Medicare, dans laquelle le patient n'a peut-être pas encore atteint l'âge de la retraite et n'a pas droit à Medicare.
- Données incohérentes – Une redondance des données non contrôlée entraîne des incohérences des données. Chaque organisation est affectée par des données incohérentes et répétitives. Ceci est particulièrement typique avec les données clients.
- Données incomplètes – Les données avec des valeurs manquantes constituent le principal type de données incomplètes.
- Données en double – Des données en double peuvent survenir en raison de soumissions répétées, d'une jointure de données incorrecte ou d'une erreur de l'utilisateur.
Afin d'augmenter la qualité des données et d'éviter les données sales, les organisations doivent intégrer des méthodologies pour garantir l'exhaustivité, la validité, la cohérence et l'exactitude des données.