DataOps - L’Agilité au Service de la Donnée

January 15, 2021
Rédigé par
Julie Robles

On dit souvent que l’information, les données, sont le “nouveau pétrole” des entreprises. Il est vrai que la  plupart des acteurs économiques, tous secteurs confondus, ont compris la valeurs de stratégies “data-driven” et sont constamment à la recherche de nouveaux outils décisionnels plus fiables, plus précis et plus rapides.

Dans une situation économique compétitive, incertaine et volatile, “plus que de pétrole, c’est d’une raffinerie dont les décideurs ont besoin” peut-on affirmer, en citant Adrien Blind, VP Product chez Saagie. C'est-à-dire d’outils et de processus de gestion, de traitement, et de mise à disposition fluide de ces données, davantage que de leur accumulation ou de leur stockage. 

Dans ce contexte, la méthodologie DataOps - qui a pour objectif d’améliorer la qualité de l’analyse des données et d’en réduire le temps de traitement pour en révéler la valeur business - a depuis longtemps dépassé le stade du simple concept. Elle s’affirme comme une discipline indépendante qui se détache peu à peu de l’analyse de données pure en s'inspirant des méthodes Agile et DevOps pour fluidifier et accélérer la gestion des projets Big data. 

DataOps - De quoi parle-t-on ? 

Selon le cabinet Gartner, le DataOps est “une méthodologie collaborative de gestion des données dont l’objectif est d’améliorer la communication, l’intégration et l’automatisation des flux de données entre les gestionnaires et consommateurs de données au sein d’une organisation.”

S’inspirant des méthodes agiles, DevOps et LEAN, la DataOps est une discipline indépendante de l’analyse des données.

La promesse du DataOps est de contribuer à optimiser le cycle de vie des projets Data et Analytics selon des critères de qualité et de rapidité. 

Le DataOps a pour objectif principal de créer plus de valeur rapidement en mettant en place des process et des outils qui favorisent une “gestion rapide des changements de données,  des data models et des artefacts associés” ajoute Gartner.

Le DataOps était à ses débuts considéré comme un ensemble de bonnes pratiques, qui s’est mué en une approche véritablement innovante des projets data dotée d’un corpus méthodologique propre. Le DataOps s’applique à la totalité du cycle de l'analyse des données - de la préparation des données au reporting - et prend en compte la nature interconnectée de l'équipe d'analyse des données et des opérations informatiques.

Au niveau organisationnel, le DataOps a pour finalité de fluidifier les rapports entre les différents acteurs de la donnée : développeurs, analystes, gestionnaires, opérateurs, afin de répondre aux besoins de chacun le plus rapidement possible et en toute sécurité. 

Les enjeux liés à la donnée dans l’entreprise

L’émergence du DataOps se fait dans un contexte où les challenges associés à la data sont de plus en plus nombreux. Ce phénomène s’explique par l’omniprésence des données dans presque tous les processus de production et de décisions ainsi que par la grande quantité de data collectée, qui en rend l’analyse plus complexe et plus longue. 

En effet, des modèles de régression linéaires aux projets liés à l’intelligence artificielle, en passant par l’apprentissage automatique, les données sont aujourd’hui collectées de manière massive et leur maîtrise laisse entrevoir trois enjeux principaux : 

  • Challenge technique tout d’abord :
    L’écosystème Big Data est ultra-fragmenté. Il existe un multitude de frameworks qui sont complexes à alimenter, intégrer, et maintenir. 
  • Challenge humain :
    Les besoins des consommateurs (de données) sont eux aussi très changeants. Les principales parties prenantes (équipes IT, Analytiques, Métiers) travaillent encore bien souvent dans des équipes distinctes et pour un même projet, leurs objectifs peuvent différer du tout au tout. Les demandes, quand elles sont qualifiées d’urgentes, manquent le plus souvent de précision. Trop souvent, le demandeur de données n’arrive à spécifier sa demande avec précision qu’après livraison des données.
  • Le troisième challenge se situe au niveau des processus :
    De nombreuses tâches comme le nettoyage de la donnée ou les tests qualité sont répétitives et manuelles. La plupart des projets data sont encore déployés de manière artisanale ce qui génère une perte de temps considérable là où il faudrait pouvoir aller plus vite.

Des conséquences négatives sur le processus data

Les conséquences sont souvent désastreuses. De nombreux projets data ne sont jamais déployés ou leur accouchement se fait dans la douleur et de manière imparfaite. 

Cerise sur le gâteau, de nombreux décideurs et donneurs d’ordre en viennent à considérer leurs projets Big data comme apportant peu de valeur à l’entreprise et ceux-ci sont stoppés ou souffrent d’une mauvaise image en interne.

Quelle est l’approche proposée par le DataOps ? 

Le DataOps offre une approche innovante des projets en se basant sur les méthodologies Agile et en s’inspirant du DevOps.

1/ l’Agilité comme principe de fonctionnement

Tout comme le DevOps, le DataOps est associé aux principes Agiles en les transposant dans le monde de la data pour en accélérer la livraison et l’analyse.

Équipes pluridisciplinaires, livraison en continu, “fail fast” ou “test & learn” sont des concepts Agile utilisés par le DataOps.

Le DataOps se focalise en particulier sur l’incrémentiel, l’adaptabilité et l’itération, ce qui permet de rationaliser les flux (ou pipeline) de données.

2/ Ne pas confondre DevOps et DataOps

Le DataOps et le DevOps ont certes des points communs - automatisation, tests unitaires, gestion d’environnements et de version ou encore monitoring - mais s’adressent à des populations différentes (développeurs vs datas scientists) en se concentrant exclusivement sur la data et sa mise à disposition dans des conditions opérationnelles optimales. 

Le DataOps répond aux spécificités des projets de Data Analytics en veillant au maintien du pipeline, à la reproductibilité des résultats et au monitoring des performances d’un modèle statistique ou de machine learning. 

Ainsi on peut affirmer que le DataOps est l’héritier du DevOps. Il se base sur les principes de ce dernier en tentant d’assurer toujours plus de liens entre les équipes qui utilisent et gèrent la donnée. 

Différence entre DevOps et DataOps


3/ Réconcilier consommateurs et opérateurs de données

Dans une entreprise, il y a ceux qui gèrent la base de données et ceux qui la consomment.  Entre ceux qui contrôlent la donnée et ceux qui en ont besoin (développeurs, métiers…), il existe souvent des frictions. Il y a toujours des délais (trop longs) entre une demande et la réponse apportée et cela crée des frustrations qui peuvent nuire au projet. 

L'approche DevOps consiste à réconcilier les populations qui contrôlent la donnée (les opérateurs) et de donner de l’agilité à ceux qui la consomment. 

DataOps - Des équipes pluridisciplinaires
  • Dans une équipe DataOps on trouve tout d’abord des Data Engineers qui créent et assurent la maintenance des bases de données. 
  • Les Data scientists sont quant à eux chargés d'interpréter les données. 
  • On trouve aussi des Data Architects, des Data Stewards et des Business Analysts dans les équipes plus nombreuses. 

Comment mettre en place le DataOps ?

Le DataOps est l'art d'orchestrer des équipes, des processus et des technologies pour accélérer la livraison rapide de données de haute qualité aux consommateurs. Voici quelques étapes et principes à respecter pour mettre en place le DataOps dans votre organisation.

Mesurer la maturité de vos équipes 

Le DataOps est un processus de transformation d’une organisation existante. Il est donc important de définir un point de départ et des objectifs atteignables comme l’automatisation de certains process. La première étape consiste alors à cataloguer et évaluer la qualité de vos données en utilisant de véritables outils d’intégration de la data.

IBM illustre les résultats de l’adoption du DataOps avec quatre états de maturité 

Le Pipeline au coeur du process DataOps

Pour un décideur SI, mettre en place le DataOps c’est réussir l’articulation d’une chaîne d’outils complète (de “bout en bout”) qui gère la sauvegarde, la sécurisation, le versioning (rafraîchissement), la préparation et l'analyse des données pour les rendre utilisables par le consommateur. 

Un des concepts-clés du DataOps est le Pipeline ou flux de données. Il est au cœur du processus et permet de le visualiser. C’est une succession d’étapes de traitement de la données qui la rende utilisable en bout de chaîne

Automatisation du Pipeline 

L’objectif est alors de rendre fluide et d’automatiser la gestion des données pour in-fine restituer de la valeur utilisable par les consommateurs. On distingue trois phases principales :

  • L’exploration des données brutes et les premières expérimentations rapides 
  • Le nettoyage des données et la construction des premiers modèles par itérations successives.
  • Le transfert de modèles matures dans un environnement de production accessible à tous, pour générer de la valeur.


Les cinq points d’attention pour implémenter le DataOps

L’intégration continue : pour accélérer la fréquence de déploiement, réduire le Time To Market et coller au plus près des besoins.

Utiliser un système de contrôle des versions. 

Automatiser les tests (abandonner les tests manuels pour augmenter le niveau de qualité moyen)

Mise en place d’un système de gouvernance des données : mise en place de processus de gestion des flux internes et externes de données pour s’assurer de la qualité et de la sécurité de celles-ci.

Démocratisation de la donnée : mise en place du self-service (exposer les données et autonomiser les utilisateurs à créer leurs propres rapports)

Conclusion :

Le bénéfice principal du DataOps - au-delà des techniques et des outils utilisés - est de réussir à aligner les objectifs entre les parties prenantes d’un même projet pour y apporter une valeur business plus importante dans un délai plus court. 

Faire collaborer le “technique” et le “fonctionnel” est une des clés pour accélérer la livraison de projets data. De plus, en améliorant la qualité des données et des processus, le DataOps augmente la confiance entre les parties, et accélère le cycle de vie des produits.

Recevez chaque mois la newsletter qui inspire les grandes organisations

Nous synthétisons les ressources et les inspirations partagées au sein de notre communauté.