On dit souvent que l’information, les données, sont le “nouveau pétrole” des entreprises. Il est vrai que la  plupart des acteurs économiques, tous secteurs confondus, ont compris la valeurs de stratégies “data-driven” et sont constamment à la recherche de nouveaux outils décisionnels plus fiables, plus précis et plus rapides.
Dans une situation économique compétitive, incertaine et volatile, “plus que de pétrole, c’est d’une raffinerie dont les décideurs ont besoin” peut-on affirmer, en citant Adrien Blind, VP Product chez Saagie. C'est-à -dire d’outils et de processus de gestion, de traitement, et de mise à disposition fluide de ces données, davantage que de leur accumulation ou de leur stockage.
Dans ce contexte, la méthodologie DataOps - qui a pour objectif d’améliorer la qualité de l’analyse des données et d’en réduire le temps de traitement pour en révéler la valeur business - a depuis longtemps dépassé le stade du simple concept. Elle s’affirme comme une discipline indépendante qui se détache peu à peu de l’analyse de données pure en s'inspirant des méthodes Agile et DevOps pour fluidifier et accélérer la gestion des projets Big data.
Selon le cabinet Gartner, le DataOps est “une méthodologie collaborative de gestion des données dont l’objectif est d’améliorer la communication, l’intégration et l’automatisation des flux de données entre les gestionnaires et consommateurs de données au sein d’une organisation.”
S’inspirant des méthodes agiles, DevOps et LEAN, la DataOps est une discipline indépendante de l’analyse des données.
La promesse du DataOps est de contribuer à optimiser le cycle de vie des projets Data et Analytics selon des critères de qualité et de rapidité.
Le DataOps a pour objectif principal de créer plus de valeur rapidement en mettant en place des process et des outils qui favorisent une “gestion rapide des changements de données,  des data models et des artefacts associés” ajoute Gartner.
Le DataOps était à ses débuts considéré comme un ensemble de bonnes pratiques, qui s’est mué en une approche véritablement innovante des projets data dotée d’un corpus méthodologique propre. Le DataOps s’applique à la totalité du cycle de l'analyse des données - de la préparation des données au reporting - et prend en compte la nature interconnectée de l'équipe d'analyse des données et des opérations informatiques.
Au niveau organisationnel, le DataOps a pour finalité de fluidifier les rapports entre les différents acteurs de la donnée : développeurs, analystes, gestionnaires, opérateurs, afin de répondre aux besoins de chacun le plus rapidement possible et en toute sécurité.
L’émergence du DataOps se fait dans un contexte où les challenges associés à la data sont de plus en plus nombreux. Ce phénomène s’explique par l’omniprésence des données dans presque tous les processus de production et de décisions ainsi que par la grande quantité de data collectée, qui en rend l’analyse plus complexe et plus longue.
En effet, des modèles de régression linéaires aux projets liés à l’intelligence artificielle, en passant par l’apprentissage automatique, les données sont aujourd’hui collectées de manière massive et leur maîtrise laisse entrevoir trois enjeux principaux :
Les conséquences sont souvent désastreuses. De nombreux projets data ne sont jamais déployés ou leur accouchement se fait dans la douleur et de manière imparfaite.
Cerise sur le gâteau, de nombreux décideurs et donneurs d’ordre en viennent à considérer leurs projets Big data comme apportant peu de valeur à l’entreprise et ceux-ci sont stoppés ou souffrent d’une mauvaise image en interne.
Le DataOps offre une approche innovante des projets en se basant sur les méthodologies Agile et en s’inspirant du DevOps.
Tout comme le DevOps, le DataOps est associé aux principes Agiles en les transposant dans le monde de la data pour en accélérer la livraison et l’analyse.
Équipes pluridisciplinaires, livraison en continu, “fail fast” ou “test & learn” sont des concepts Agile utilisés par le DataOps.
Le DataOps se focalise en particulier sur l’incrémentiel, l’adaptabilité et l’itération, ce qui permet de rationaliser les flux (ou pipeline) de données.
Le DataOps et le DevOps ont certes des points communs - automatisation, tests unitaires, gestion d’environnements et de version ou encore monitoring - mais s’adressent à des populations différentes (développeurs vs datas scientists) en se concentrant exclusivement sur la data et sa mise à disposition dans des conditions opérationnelles optimales.
Le DataOps répond aux spécificités des projets de Data Analytics en veillant au maintien du pipeline, à la reproductibilité des résultats et au monitoring des performances d’un modèle statistique ou de machine learning.
Ainsi on peut affirmer que le DataOps est l’héritier du DevOps. Il se base sur les principes de ce dernier en tentant d’assurer toujours plus de liens entre les équipes qui utilisent et gèrent la donnée.
Dans une entreprise, il y a ceux qui gèrent la base de données et ceux qui la consomment.  Entre ceux qui contrôlent la donnée et ceux qui en ont besoin (développeurs, métiers…), il existe souvent des frictions. Il y a toujours des délais (trop longs) entre une demande et la réponse apportée et cela crée des frustrations qui peuvent nuire au projet.
L'approche DevOps consiste à réconcilier les populations qui contrôlent la donnée (les opérateurs) et de donner de l’agilité à ceux qui la consomment.
→ Dans une équipe DataOps on trouve tout d’abord des Data Engineers qui créent et assurent la maintenance des bases de données.
→ Les Data scientists sont quant à eux chargés d'interpréter les données.
→ On trouve aussi des Data Architects, des Data Stewards et des Business Analysts dans les équipes plus nombreuses.
Le DataOps est l'art d'orchestrer des équipes, des processus et des technologies pour accélérer la livraison rapide de données de haute qualité aux consommateurs. Voici quelques étapes et principes à respecter pour mettre en place le DataOps dans votre organisation.
Le DataOps est un processus de transformation d’une organisation existante. Il est donc important de définir un point de départ et des objectifs atteignables comme l’automatisation de certains process. La première étape consiste alors à cataloguer et évaluer la qualité de vos données en utilisant de véritables outils d’intégration de la data.
Pour un décideur SI, mettre en place le DataOps c’est réussir l’articulation d’une chaîne d’outils complète (de “bout en bout”) qui gère la sauvegarde, la sécurisation, le versioning (rafraîchissement), la préparation et l'analyse des données pour les rendre utilisables par le consommateur.
Un des concepts-clés du DataOps est le Pipeline ou flux de données. Il est au cœur du processus et permet de le visualiser. C’est une succession d’étapes de traitement de la données qui la rende utilisable en bout de chaîne
L’objectif est alors de rendre fluide et d’automatiser la gestion des données pour in-fine restituer de la valeur utilisable par les consommateurs. On distingue trois phases principales :