Coût métier de la mauvaise qualité des données

Les coûts d’une mauvaise qualité des données sont diffus : mauvaises décisions, temps de débogage, et érosion progressive de la confiance des parties prenantes. Les chiffres sectoriels permettent de plaider en faveur de l’investissement en termes concrets.

Les chiffres du secteur

12,9 millions de dollars par an par organisation. C’est l’estimation de Gartner du coût annuel moyen d’une mauvaise qualité des données. Ce chiffre inclut les coûts directs (retravail, remédiation, amendes) et les coûts indirects (décisions retardées, opportunités manquées, confiance des parties prenantes érodée). Pour une entreprise du marché intermédiaire, même une fraction de ce montant dépasse le coût d’un investissement dans des outils de qualité des données.

57 % du temps des analytics engineers va à la maintenance. L’enquête 2025 State of Analytics Engineering de dbt Labs a révélé que les praticiens consacrent 57 % de leurs heures de travail à maintenir et organiser des datasets existants plutôt qu’à développer de nouvelles capacités. C’est plus de la moitié de vos talents techniques les plus coûteux qui font du travail de maintenance parce que les fondations ne sont pas fiables.

56 % citent la mauvaise qualité des données comme leur principal défi. La même enquête a révélé que la qualité des données est passée de 41 % en 2022 à 56 % en 2025 comme défi le plus fréquemment cité parmi les analytics engineers. Le problème s’aggrave, il ne s’améliore pas, à mesure que les volumes de données augmentent et que la complexité des pipelines s’accroît.

40 % du temps des data engineers sur les problèmes de qualité. Une enquête Monte Carlo a révélé que les data engineers consacrent 40 % de leurs journées à traiter des problèmes de qualité des données. Pour une équipe de cinq data engineers avec un salaire moyen de 150 000 $, cela représente 300 000 $/an en salaires seuls dépensés à éteindre des incendies de manière réactive.

Le temps d’indisponibilité des données a presque doublé d’une année sur l’autre. Une enquête Monte Carlo de 2023 a révélé que le temps d’indisponibilité des données — périodes où les données sont partielles, erronées, manquantes ou autrement inutilisables — a presque doublé par rapport à l’année précédente, avec un temps de résolution augmentant de 166 %. Le problème se cumule : plus de données, plus de pipelines, plus de modes de défaillance, et une récupération plus lente lorsque des défaillances surviennent.

Incidents notoires

Trois incidents illustrent l’étendue des conséquences.

Unity Technologies : perte de revenus de 110 millions de dollars

Unity Technologies a perdu 110 millions de dollars de revenus au T1 2022 lorsque des données corrompues ont brisé leurs modèles de machine learning utilisés pour le ciblage publicitaire. L’entreprise avait ingéré des données défectueuses d’un client majeur, qui ont contaminé les modèles ML pilotant le ciblage publicitaire. Les effets ont eu un effet cascade : la précision du ciblage s’est dégradée, les annonceurs ont obtenu de mauvais résultats, les revenus ont chuté, et le cours de l’action a baissé de plus de 30 %.

La cause racine n’était pas une attaque sophistiquée ni un cas limite rare. C’était de mauvaises données circulant dans un pipeline dépourvu de validation adéquate. Le genre de problème que la détection d’anomalies de volume ou les vérifications de distribution auraient détecté tôt.

JPMorgan Chase : 350 millions de dollars d’amendes réglementaires

JPMorgan Chase a été condamné à environ 350 millions de dollars d’amendes en 2024 pour des données de trading incomplètes dans leurs systèmes de surveillance. La banque a omis de déclarer avec précision des millions de transactions sur plusieurs années. Les régulateurs ont trouvé des lacunes dans la collecte, le traitement et le reporting des données qui violaient plusieurs exigences réglementaires.

Dans les secteurs réglementés, la qualité des données n’est pas optionnelle — c’est une exigence de conformité avec des pénalités directement mesurables. L’amende de 350 millions de dollars dépasse le coût total de toute infrastructure de qualité des données que la banque aurait pu construire.

Public Health England : 16 000 résultats de tests COVID perdus

En octobre 2020, Public Health England a perdu 16 000 résultats positifs de tests COVID-19 lorsque la limite de lignes d’Excel a silencieusement tronqué les enregistrements. Les fichiers CSV dépassaient le maximum d’Excel d’environ 65 000 lignes dans l’ancien format .xls utilisé, et les lignes excédentaires ont été discrètement supprimées.

Aucune erreur n’a été générée. Aucun test n’a échoué. Les données ont simplement disparu. Le traçage des contacts pour ces 16 000 cas positifs a été retardé de plusieurs jours, durant une période où un traçage rapide était critique pour la réponse à la pandémie.

C’est le cas archétypal de la détection d’anomalies de volume : le pipeline semblait fonctionner, chaque ligne existante était valide, mais le volume total était radicalement incorrect. Une simple comparaison du nombre de lignes entre le CSV source et le dataset chargé aurait immédiatement détecté le problème.

L’asymétrie prévention vs. remédiation

La prévention est moins coûteuse que la remédiation. Un test qui détecte un changement de schéma en CI prend quelques minutes à corriger. Le même changement de schéma découvert trois jours plus tard — après que les tableaux de bord ont affiché des chiffres erronés et que les parties prenantes ont pris des décisions sur la base de ces chiffres — prend des heures à diagnostiquer, des heures à corriger, et une crédibilité significative à reconstruire.

La stack d’observabilité minimale viable — tests de clé primaire, surveillance de la fraîcheur, détection d’anomalies de volume et alertes — ne coûte rien en licences. Elementary OSS est gratuit. Les tests natifs de dbt sont gratuits. L’investissement est le temps de configuration : quelques jours de paramétrage qui préviennent la majorité des incidents courants de qualité des données.

Des outils plus sophistiqués — Elementary Cloud, Monte Carlo, Anomalo — coûtent de 5 000 à 50 000 $/mois selon l’échelle. Face aux 12,9 millions de dollars de coûts annuels de qualité, même les outils les plus coûteux représentent une fraction du problème qu’ils adressent.

Construire le business case

Trois arguments en faveur de l’investissement dans la qualité des données :

Récupération de temps. Avec 40 à 57 % du temps d’ingénierie consacré aux problèmes de qualité, une réduction de 50 % libère 20 à 28 % de la capacité totale. Pour une équipe de cinq personnes, c’est l’équivalent d’un ingénieur à temps plein.

Évitement du coût des incidents. Suivez le temps consacré aux trois derniers incidents de qualité des données — investigation, correction, communication aux parties prenantes, impact en aval — et multipliez par la fréquence annuelle. Le chiffre résultant dépasse généralement les coûts des outils.

Préservation de la confiance. Chaque fois qu’une partie prenante découvre des chiffres erronés dans un tableau de bord avant l’équipe data, la confiance s’érode. Les parties prenantes finissent par revenir aux tableurs ou à leur instinct plutôt qu’aux données. La prévention préserve la confiance qui rend le travail sur les données utile.