Rien ne sert d’effectuer la moindre analyse si vos données sont de mauvaise qualité, tout le monde le sait. Toute donnée digne de ce nom doit être exacte, exhaustive, cohérente, valide, actuelle, intègre, claire et sécurisée. Mais comment éviter que des données de mauvaise qualité ne viennent débuter le fameux cycle “garbage in, garbage out”, faisant perdre du temps et de l’argent à tout le monde ?
Voici quelques conseils pour prendre le problème à la racine et partir sur de bonnes bases pour pleinement tirer parti de sa BI self-service.
Vérifier les données à la source :
Si les sources de données alimentant votre data lake ou data warehouse sont archaïques et résistent à tout changement, alors il est impératif d’effectuer une vérification concernant la présence éventuelle de doublons ainsi qu’une vérification de conciliation pour s’assurer que les données concordent et sont cohérentes entre elles. Ces vérifications permettront d’intercepter les données de mauvaise qualité avant qu’elles ne viennent polluer le reste du pipeline, et/ou alerter les utilisateurs.
Régler les problèmes dans les tables existantes :
Comme l’explique IBM, un simple profilage de données peut donner beaucoup d’informations sur l’état des données présentes dans une table. Si vous détectez un problème parmi ces données, vous pourrez ainsi l’isoler, remonter à sa source et le régler. Pour ce type de travail, il est utile de mettre à profit les dashboards pour visualiser les données et remarquer les possibles aberrations, écarts, incohérences et biais. D’autre part, il est recommandé d’industrialiser ce processus pour préserver la qualité des données sur le long terme et gagner du temps.
Recréer les data pipelines mal conçus :
Les problèmes de données peuvent parfois provenir directement de votre data pipeline. En effet, les pipelines mal conçus conduisent dans certains cas à des “embouteillages”, ralentissant ainsi le traitement de votre data. Ces pipelines peuvent également produire des erreurs et des incohérences lors de transformations ou intégrations complexes. L’analyse des pipelines est donc cruciale pour détecter ce type de dysfonctionnement, et éventuellement redesigner le pipeline, pour le simplifier par exemple.
Utiliser le machine learning :
L’entraînement des modèles avec des données historiques rend le ML efficace pour identifier les patterns d’usage et détecter les anomalies plus rapidement. Le ML est également efficace pour automatiser certaines parties du nettoyage de données, comme l’ajout de valeurs manquantes ou la correction d’erreurs de formatage.
Les données ne seront jamais entièrement parfaites (ce n’est d’ailleurs pas l’objectif recherché), mais instaurer un contrôle régulier et précis évitera la pollution du data pipeline nuisible à l’analyse, et une potentielle prise de décision erronée en aval. Après tout, quand l’équipe data gagne, toute l’entreprise gagne.