May 28, 2024

Network System

Une technologie unique

3 métriques de qualité des données que les dataops devraient prioriser

8 min read

Mesurer la qualité de toute sorte nécessite la science de créer une mesure ou un indicateur de overall performance clé pour une propriété subjective et de la transformer en un attribut quantifiable. La mesure de la qualité doit être un moyen d’apporter des améliorations opérationnelles et de livraison. Mais il y a un coût à mesurer la qualité et une capacité humaine au nombre de mesures que les gens peuvent suivre, il y a donc un art de choisir celles qui ont les impacts commerciaux les in addition significatifs.

Nous pouvons généralement repérer une mauvaise qualité, mais définir une bonne qualité est subjectif. Des mesures de qualité bien définies aident à définir la mauvaise qualité et à quel place quelque selected doit être amélioré pour passer d’une bonne qualité à une meilleure qualité à une qualité supérieure.

La gestion de la qualité des données présente les mêmes défis. Lorsque des professionals en la matière examinent une visualisation de données ou étudient les résultats d’un modèle d’apprentissage automatique, ils peuvent souvent repérer des problèmes de qualité des données qui compromettent les résultats. Les scientifiques des données savent également comment utiliser les outils de préparation et de qualité des données pour profiler une resource de données et améliorer la qualité des champs de données ou l’exclure de leur analyse. Les problèmes courants de qualité des données incluent des données manquantes, telles que des adresses dépourvues de codes postaux, ou des problèmes de normalisation des données, tels qu’un champ d’état américain portant parfois le nom de l’état (New York) et parfois son abréviation (NY).

Améliorations de la qualité des données avec décalage vers la gauche

Une approche pour améliorer la qualité des données consiste à « décaler vers la gauche » les étapes pour mesurer et automatiser les améliorations en tant que pratique de dataops. Dataops se concentre sur toutes les étapes d’intégration, de transformation, de jonction et de mise à disposition des données et prêtes à être consommées. C’est l’endroit idéal pour mesurer et résoudre les problèmes de qualité des données afin que toutes les analyses en aval, les visualisations de données et les cas d’utilisation de l’apprentissage automatique fonctionnent sur des sources de données cohérentes et de meilleure qualité.

Vous trouverez de nombreuses mesures de qualité des données à prendre en compte si vous étudiez les dernières recherches et posts. Par exemple, les 6 catégories couramment utilisées de mesures de la qualité des données sommes:

  • Précision
  • Complétude
  • Cohérence
  • Opportunité
  • Unicité
  • Validité

Lors de la mesure de la qualité des données dans les entrepôts de données et les bases de donnéesles proportions intrinsèques de la qualité des données telles que la cohérence sont indépendantes des cas d’utilisation, tandis que les proportions extrinsèques telles que la fiabilité peuvent dépendre de l’analyse. Mesurer la qualité des données sous forme de ratiocomme le rapport données/erreurs ou les taux d’erreur de transformation des données, fournit un meilleur mécanisme pour suivre les améliorations de la qualité que les métriques absolues.

La dilemma difficile est de savoir par où commencer et quelles améliorations et mesures de dataops prioriser. J’ai consulté plusieurs experts pour peser.

Renforcez la confiance avec l’exactitude, l’exhaustivité et la convivialité des données

Simon Swan, responsable de la stratégie des alternatives de terrain chez Talend, déclare : « 60 % des dirigeants ne font pas systématiquement confiance aux données avec lesquelles ils travaillent », une préoccupation très problématique pour les organisations qui promeuvent une prise de décision davantage basée sur les données.

Swan suggest cette suggestion aux équipes dataops. “Tout d’abord, les équipes de dataops doivent donner la priorité à l’amélioration des métriques de qualité des données pour l’exactitude, l’exhaustivité et la convivialité afin de s’assurer que les utilisateurs disposent d’informations vérifiables pour dynamiser l’entreprise”, a-t-il déclaré.

Les équipes Dataops peuvent les instrumenter pratiques de santé des données de plusieurs manières.

  • Précision est améliorée lorsque les dataops intègrent des resources de données référençables et que les gestionnaires de données résolvent les conflits by using des règles automatisées et des workflows d’exception.
  • Complétude est une mesure de qualité importante pour les données d’entité telles que les personnes et les produits. Systems pour la gestion des données de référence et plateformes de données shoppers peut aider les équipes dataops à centraliser et à compléter les enregistrements d’or à l’aide de plusieurs sources de données.
  • Convivialité est amélioré en simplifiant les structures de données, en centralisant l’accès et en documentant les dictionnaires de données dans un catalogue de données.

Swan ajoute : “La confiance des données fournit aux équipes de dataops une mesure de la résilience et de l’agilité opérationnelles qui fournit facilement aux utilisateurs professionnels des informations factuelles pour améliorer les résultats commerciaux.”

Concentrez-vous sur la disponibilité des données et du système à mesure que la qualité des données s’améliore

La bonne nouvelle est qu’à mesure que les chefs d’entreprise font confiance à leurs données, ils les utiliseront davantage pour la prise de décision, l’analyse et la prédiction. Cela s’accompagne d’une attente selon laquelle les données, le réseau et les systèmes d’accès aux principales sources de données sont disponibles et fiables.

Ian Funnell, responsable des relations avec les développeurs chez Matillion, déclare : « La principale mesure de la qualité des données que les équipes de dataops doivent prioriser est la disponibilité. La qualité des données commence à la source motor vehicle ce sont les données resources qui exécutent les opérations commerciales d’aujourd’hui.

Funnell suggère que les dataops doivent également montrer qu’ils peuvent conduire à des améliorations des données et des systèmes. Il déclare : « Dataops s’intéresse à l’automatisation du cycle de vie du traitement des données qui alimente l’intégration des données et, lorsqu’il est utilisé correctement, permet des modifications rapides et fiables du traitement des données.

Barr Moses, PDG et cofondateur de Monte Carlo Knowledge, partage une perspective similaire. “Après avoir discuté avec des centaines d’équipes de données au fil des ans de la façon dont elles mesurent l’impact de la qualité des données ou de son absence, j’ai découvert que deux mesures clés – le temps de détection et le temps de résolution des temps d’arrêt des données – offrent un bon début.”

Moses explique remark les équipes de dataops peuvent mesurer les temps d’arrêt. “Le temps d’arrêt des données fait référence à toute période de temps marquée par des données brisées, erronées ou autrement inexactes et peut être mesuré en ajoutant le temps nécessaire pour détecter (TTD) et résoudre (TTR), multiplié par le temps d’ingénierie passé à s’attaquer au publier.”

La mesure des temps d’arrêt est une approche pour créer un indicateur de efficiency clé de dataops lié à la effectiveness financière. Moses ajoute : “Inspirés par des mesures devops éprouvées, les TTD, TTR et les temps d’arrêt des données facilitent la quantification de l’impact financier de la mauvaise qualité des données sur les résultats d’une entreprise.”

Différenciez-vous avec la rapidité des données et les opérations de données en temps réel

Kunal Agarwal, cofondateur et PDG d’Unravel Data, déclare que les dataops doivent aspirer à dépasser les mesures de foundation de la qualité et de la disponibilité des données et se tourner vers davantage de capacités en temps réel. Il déclare : « Alors que la plupart des mesures de la qualité des données se concentrent sur l’exactitude, l’exhaustivité, la cohérence et l’intégrité, une autre mesure de la qualité des données que chaque équipe de dataops devrait penser à prioriser est la rapidité des données.

La rapidité capture le flux de données de bout en bout depuis la capture, le traitement et la disponibilité, y compris les retards de traitement des fournisseurs et des plenty. Agarwal explique : “Des mesures de rapidité fiables facilitent l’évaluation et l’application des SLA des fournisseurs internes et tiers et fournissent finalement une ligne directe vers une analyse des données améliorée et accélérée.”

Swan convient de l’importance d’améliorer l’actualité des données. Il déclare : « Dataops devrait également se concentrer sur la garantie de la rapidité et de l’actualité afin que les utilisateurs puissent accéder à des données à jour dans n’importe quel environnement. La qualité des données dépend de leur capacité à répondre aux besoins de l’entreprise en temps quasi réel. »

Pour de nombreuses organisations, amener les chefs d’entreprise à faire confiance aux données, à améliorer la fiabilité et à permettre une livraison des données plus proche du temps réel peut être ambitieux. De nombreuses entreprises ont un arriéré de dette de données problèmes, importants données sombres qui n’ont jamais été analysés, et une dépendance abnormal aux feuilles de calcul.

Donc, si vous travaillez dans les dataops, il y a beaucoup de travail à faire. L’application de mesures de qualité des données peut aider à obtenir le soutien de l’entreprise, des scientifiques des données et des leaders technologiques.

Copyright © 2022 IDG Communications, Inc.