Modern Data Stack : L’architecture qui transforme la gestion des données

By Fabien

Une nouvelle ère pour la gestion des données

Dans un monde où les données sont au cœur des décisions stratégiques, la Modern Data Stack s’impose comme une réponse incontournable aux défis de gestion et de valorisation des données. Mais qu’est-ce que la Modern Data Stack (MDS), et en quoi se distingue-t-elle des approches traditionnelles ?

Que nous dit Copilot quand on lui pose la question ?

« Une Modern Data Stack est un ensemble d’outils modernes qui collectent, organisent, stockent, transforment et analysent les données. Contrairement aux systèmes hérités, elle repose sur des technologies cloud pour répondre aux volumes croissants de données. Traditionnellement, le processus ETL (Extract, Transform, Load) était utilisé, mais celui-ci a évolué vers ELT (Extract, Load, Transform), où les données sont d’abord chargées avant d’être transformées

La différence entre un Modern Data Stack et un Stack Data Legacy (ou système hérité) réside dans l’intégration de nouveaux outils et dans le processus de transformation des données. Avec l’augmentation des volumes de données, de nouvelles technologies comme le cloud ont émergé pour répondre à une demande croissante des entreprises. Par exemple, les Cloud Data Warehouses et les Data Lakes ont évolué pour faciliter l’optimisation et la transformation des données.

En somme, le Modern Data Stack est une évolution des outils et des processus utilisés pour gérer les données, rendue possible par les avancées technologiques et l’augmentation des volumes de données. »

“La Modern Data Stack n’est pas seulement une évolution technique, mais un véritable changement de paradigme.”

à qui la Modern Data Stack est destinée ?

La Modern Data Stack (MDS) sert 3 grands types de personnes :

  • En priorité l’utilisateur final, celui qui consomme la data au travers de dashboard ou API par exemple
  • Aux personnes qui composent l’équipe data, la cheville ouvrière technique de la mise en musique de la data (data engineers, data scientists, data analysts, business analysts, data manager ou data product manager)
  • Le producteur de la data, la personne qui par ses actions (saisie dans un ERP, navigation sur un site de e-commerce, réalisation d’une tâche sur une chaîne de production …) va créer de la data.

Un sujet auquel la Modern Data Stack devra répondre est déjà visible : comment faire pour que chacun, avec ses particularités, puisse communiquer avec les autres et se comprennent ?

La Data Gouvernance et son implication dans la Modern Data Stack

La Data Gouvernance doit être basée sur des normes :

Les normes en matière de Data Gouvernance facilitent l’interopérabilité et le partage transparent des données. En disposant d’une gouvernance standardisée, les organisations peuvent ajouter un contexte et une compréhension significatifs à leurs données. Cela aide à traduire les données brutes en informations exploitables.

Les normes fournissent un cadre pour réglementer l’utilisation des données au sein d’une organisation, garantissant le respect des exigences juridiques et éthiques. Les normes en matière de gouvernance des données jouent un rôle central en permettant l’interopérabilité et en favorisant la réutilisation, l’automatisation et la découverte des données.

Avis d’expert : Modern Data Stack by Fabien

« Une Modern Data Stack (MDS) se compose d’outils spécifiques utilisés pour valoriser et manager les données. Ces différentes technologies permettent de collecter les informations depuis différentes sources de données, de les stocker, de les transformer en maintenant un niveau de qualité élevé, de les organiser, de les analyser, de les distribuer et de les gouverner.

Au fur et à mesure que les volumes des données augmentent, les besoins en espace de stockage augmentent et les besoins de compute (moteur de calcul) suivent la même trajectoire. L’idée est alors de trouver des solutions plus efficaces de traiter les données.

Les technologies cloud et les formats de stockage ouverts (Delta, Iceberg et Hudi) ont transformé l’analyse des données. Cela a permis l’apparition des datalakes, qui facilitent l’optimisation et la transformation des données. Puis, les Lakehouses sont arrivés, combinant le meilleur des Datawarehouses et des Datalakes. En plus de la transformation des données, les outils de Business Intelligence, d’analytique et de visualisation des données se sont également développés pour répondre aux besoins des entreprises.

L’utilisation d’outils plus performants permet aussi de modifier le processus de transformation des données. On passe ainsi d’un process ETL (Extract, Transform, Load) vers un process ELT (Extract, Load, Transform).

Au-delà d’un changement de process et d’outils, la Modern Data Stack correspond à un changement de paradigme. Les sociétés passent d’une vision centrée sur la technique à une vision centrée sur le business.

Ce modèle de pensée data-driven permet ainsi d’apporter encore plus de valeur grâce à la donnée.« 

Quels sont les piliers sur lesquels s’appuient la Modern Data Stack ?

1. Modularité

Une Modern Data Stack est conçue comme un assemblage de briques logiciels répondant à une fonction spécifique. Ainsi la modern stack data intègre ces solutions couche par couche. Chacune fonctionne de manière autonome, mais s’intègre parfaitement aux autres technologies de la stack.

2. Vitesse de traitement et automatisation

La Modern Data Stack est basée sur le cloud. Ce faisant, les sociétés bénéficient d’une vitesse de traitement des données optimale car la scalabilité des services cloud est plus simple à mettre en œuvre que sur une infrastructure on-premise.

3. Coût (nerf de la guerre) et notamment optimisation des coûts

La recherche de l’optimisation des coûts dans les sociétés est une priorité. L’utilisation du cloud permet cette optimisation en ajustant les besoins de compute en fonction des traitements à effectuer et en ayant une facturation au temps d’utilisation.

4. Facilité d’utilisation & communication

La Modern Data Stack a vocation à être facilement utilisables par les différents types de collaborateurs. Il n’est donc plus forcément nécessaire de maîtriser les langages de programmation complexes pour traiter et utiliser les données. Ainsi l’UX doit être réfléchie autant par la vision technique que métier.

De plus certaines informations sont communes aux différentes solutions donc celles-ci doivent pouvoir communiquer entre elle de manière simple, en un mot elles doivent être intégrées.

5. Evolutivité

Comme il est possible d’intégrer de nouvelles technologies indépendamment les unes des autres, les entreprises ont la possibilité d’améliorer toujours plus leur stack data. Ce faisant, elles sont capables de répondre à leurs besoins actuels, peu importe leur évolution.

6. Gouvernance

La gouvernance est un point crucial car la responsabilité des données est diffusée aux utilisateurs et non plus concentré dans les mains de la data team. De ce fait la Modern Data Stack doit intégrer une solution pour gérer les data contracts (et par conséquent le catalogue de data products), monitorer la qualité des données et SLA. Il doit être aux différents utilisateurs ce qu’est le MDM à la donnée : le point de vérité.

7. Historisation

Il n’est pas uniquement question de l’historisation des données mais surtout de l’historisation des développements ou des modifications apportées aux metadatas. La Modern Data Stack doit être en prise directe avec des outils comme Github ou Gitlab pour comprendre pourquoi un traitement ou un calcul a changé et pouvoir revenir en arrière au besoin.

DataOps, reflet du DevOps ou CI/CD

La Modern Data Stack doit pouvoir intégrer rapidement les nouvelles demandes. Les principes du DevOps doivent aussi s’appliquer au monde de la data avec le DataOps : l’automatisation des déploiements est un aspect important et un facilitateur de la vie des développeurs.

En conclusion

La Modern Data Stack ne se résume pas à une simple évolution technologique. Elle représente une transformation profonde dans la manière dont les entreprises exploitent leurs données, en mettant l’accent sur la flexibilité, l’accessibilité et la performance.

Grâce à cette approche, les organisations peuvent non seulement optimiser leurs processus, mais aussi libérer tout le potentiel de leurs données pour prendre des décisions plus éclairées et stratégiques.

 À suivre !
Un second article détaillera l’architecture et les composants techniques essentiels de la Modern Data Stack. Restez connectés pour découvrir comment mettre en place une MDS efficace et adaptée à vos besoins !

Nouveau
guide disponible