DataLake, effet de mode ou nouvelle révolution ?

DataLake, effet de mode ou nouvelle révolution ?

Aucun commentaire sur DataLake, effet de mode ou nouvelle révolution ?

Le Data Lake évolution certaine du Big Data

Nouvelle évolution dans le domaine de la gestion de données, les Data Lakes sont une évolution naturelle de la technologie Big Data. Il s’agit d’un nouveau concept de stockage de données qui s’inscrit dans une logique contemporaine d’agilité et d’optimisation dans la gestion de données.

La grande ambition des Data Lakes est de réussir à s’affranchir des frontières traditionnelles du SI. Le principe repose sur la possibilité de fournir un stockage global de l’ensemble des données présentes dans l’entreprise tout en y effectuant le moins de traitements possible.

Les données ainsi stockées sans classifications ni transformations aucune peuvent être de tout type, on pourra ainsi aussi bien trouver des données structurées venant d’une base de données relationnelle, des données semi-structurées (CSV, XML, JSON…), non-structurées (E-Mail, pdf, documents…) que des données binaires (images, audios, videos…)

Cette absence de schéma de stockage autorise plus de flexibilité dans l’interaction entre les données. Outre le stockage, l’intérêt va être de faciliter le traitement et la transformation des données.

Comment l’entreprise y trouve-t-elle son compte ?

La flexibilité offerte par le Data Lake permet d’interagir entre toutes les données qu’elles soient brutes ou traitées. C’est l’absence de schéma strict imposé aux données en entrée qui autorise cette flexibilité. De ce fait, c’est la globalité du cycle d’innovation qui est améliorée grâce à ces facilités de traitements et de transformations des données.

Le concept de Data Lake s’est présenté comme une solution idéale pour répondre aux nouveaux besoins en terme de données, notamment pour faire face à l’émergence de l’internet des objets et de la collecte massive de données.

L’entreprise y trouve donc une plateforme fédératrice qui offre de nouvelles solutions économiques pour répondre aux contraintes des technologies du Big Data.

Data Lake et Data Warehouse attention à ne pas confondre !

Il est facile de considérer que les Data Lakes s’apparentent à des Datawarehouse (ou entrepôt de données) toutefois les différences entre ces deux structures de données sont importantes sur plusieurs plans.

Tout d’abord, le premier a vocation à “engloutir” un flot brut de données pour les rendre utilisables ou transformables au moment de répondre à un besoin. C’est une approche qui permet de traiter les donnée uniquement au moment de les rendre exploitables. Habituellement avec un Datawarehouse les difficultés apparaissent au lors des phases de collecte et d’ingestion dans les systèmes.

On peut considérer le fonctionnement du Datawarehouse comme linéaire, il va s’agir de transporter la donnée de la source (l’entrepôt) vers le consommateur en suivant un chemin fixe défini par un datamart (sous entrepôt de données au sein de l’entrepôt principal permettant de trier les données selon des thématiques métier) qui est censé satisfaire tous les besoins utilisateurs.

Le Data Lake va s’affranchir de ces difficultés grâce au chargement brut des données sur une plateforme dédiée. Ensuite, chaque utilisateur pourra matérialiser son besoin par la récupération des données sources puis de les combiner pour leur donner un sens.

Finalement, l’opérationnalité du Data Lake en fait plutôt le successeur du Datawarehouse plutôt qu’un équivalent. Il va en effet dépasser l’aspect Business Intelligence du Datawarehouse par la création de valeur qui permet alors de dépasser l’unique aspect reporting de l’utilisation des données d’un datawarehouse.

Le Data Lake est-il réellement cette solution d’avenir miracle ?

Il est important de relativiser l’intérêt d’une nouvelle technologie, bien que présentant de nombreux intérêts, les Data Lakes peuvent faire apparaître plus de soucis qu’ils n’en résolvent.
L’absence d’organisation dans les données et le stockage “en vrac” va en effet créer un très grand nombre de déchet, de données inexploitables ou sans intérêts, qui vont polluer la plateforme.

De même, le manque de hiérarchisation peut amener à une complexité dans la valorisation de certaines données.

Si l’on devait faire une allégorie, on pourrait comparer un Data Lake à un musée exposant toutes les oeuvres qu’il trouve, mais sans conservateur pour en apprécier l’intérêt et déterminer celles qui valent la peine d’être réellement exposées.

Le Data Lake peut aussi, s’il n’est pas géré correctement, devenir extrêmement coûteux pour un résultat minime par rapport aux promesses de la solution.

Enfin, le dernier risque repose sur l’aspect sécuritaire de ces structures. En cas de fuite, ce sont toutes les données qui se retrouvent disponibles en même temps quel qu’en soit le type.

A titre d’exemple, la plus importante fuite de données de l’histoire (cf. fuite de données des électeurs américains) provient de la fuite d’un Data Lake.

 

En guise de conclusion, il est facile de voir l’intérêt certain des Data Lakes et les facilités de traitement qui sont offertes. C’est donc une technologie qui a vocation à s’imposer comme la succession des entrepôts de données et la nouvelle norme dans le Big Data.

Toutefois, les risques sont multiples et pas forcément correctement mesurés par les entreprises.
Plutôt que de débattre sur l’intérêt de ce nouveau type de structure de données, ne serait-il pas plus intéressant de se demander si cette évolution est réellement nécessaire ou si elle ne devrait pas plutôt nous amener à repenser la façon d’utiliser les outils à disposition dans la structuration de SI ?

Réseaux sociaux

Nos partenaires

Back to Top