Data Lake vs Data Warehouse : la donnée au service de l'analyse

ib

Quelles différences entre Data Lake et Data Warehouse ?

Data Lake ou Data Warehouse ? La question n’est pas anodine et nombre de professionnels IT se la posent régulièrement. Après tout, si l’un et l’autre ont pour point commun de stocker de grandes quantités de datas, les anciennes bases de données relationnelles en étaient tout aussi capables. Au-delà de cette apparente similitude, Data Lake et Data Warehouse sont très différents et ne doivent pas être confondus. Nous allons étudier chacune de ces architectures de données pour en évaluer les avantages et les inconvénients. Cette analyse vous permettra de statuer sur la meilleure méthode de stockage pour les projets de votre organisation.

Le Data Warehouse : la donnée filtrée pour alimenter la Business Intelligence

Puisque nous évoquions les bases de données en introduction, commençons cet exposé par le Data Warehouse ou « entrepôt de données ». Cette forme de stockage est en effet la moins éloignée de la méthode primitive, tout en y apportant des améliorations majeures. Si l’on ne devait en retenir qu’une, ce serait incontestablement la dimension temporelle. Dans un Data Warehouse, les données ne sont jamais remplacées et leurs différentes valeurs sont toutes conservées. Cette caractéristique renforce l’utilité du Data Warehouse dans des domaines comme l’étude comportementale, l’évolution des tendances et la prise de décisions : autrement dit, la Business Intelligence. Une autre particularité du Data Warehouse, cette fois empruntée à la base de données, c’est sa structure. L’entrepôt n’accumule pas de données brutes. Au travers d’ETL (Extract, Transform & Load), la data est sélectionnée et nettoyée afin d’en conserver une information directement exploitable. Ainsi, l’analyse de données devient accessible aux décisionnaires non informaticiens. 

Le Data Lake : la donnée brute au service de l'analyse Big Data

Dans le Data Lake ou « lac de données », c’est tout l’inverse : les données sont déversées en flots continus, sans s’encombrer d’une quelconque transformation. Le stockage est non structuré et les datas peuvent provenir de sources multiples comme des fichiers texte, des journaux, des échanges sur les réseaux sociaux, des remontées de capteurs ou même des contenus ordonnés. Toutes les données brutes touchant de près ou de loin à l’activité de l’entité sont conservées. La question de leur utilité ou de leur exploitation est reportée et confiée aux Data Scientists. Contrairement au Data Warehouse, seuls ces experts Big Data savent valoriser les informations issues d’un Data Lake et les livrer aux décisionnaires. Car au chapitre de l’outillage, nous passons du SQL au NoSQL, des Power Apps à l’écosystème Hadoop, Spark ou Kafka, inaccessibles aux profanes.

Comment choisir entre Data Warehouse et Data Lake ?

Pour vous déterminer entre les deux systèmes de stockage, nous vous proposons un système d’évaluation basé sur quatre curseurs.

1– Sur le critère de la gouvernance des données

Un premier critère se base sur la qualité et le système de gouvernance des données. Doit-il être positionné à la collecte dans un Data Warehouse où à l’exploitation d’un Data Lake ? L’alimentation sans structure du second est immédiate, mais l’information doit être raffinée par des analystes spécialisés avant lecture par les métiers. Dans l’entrepôt, la valeur décisionnelle de la donnée est triée en amont, les datas inutiles sont écartées par les algorithmes de Machine Learning.

2– Par le rapport entre évolutivité et accessibilité des analyses

Dans un Data Warehouse, la donnée transformée peut être visualisée par le plus grand nombre à l’aide d’interfaces comme Tableau, Qlick ou Power BI. Tout besoin supplémentaire exige la mise en place d’une nouvelle collecte et de développements adaptés. L’exploitation du Data Lake se prête mieux à l’évolutivité des demandes. L’exhaustivité des archivages permet l’élaboration de nouvelles analyses : la donnée requise est toujours disponible.

3– D’après le type de données manipulées par l’entité

Certains secteurs économiques manipulent des données majoritairement structurées dans leurs activités quotidiennes. C’est notamment le cas dans la finance ou l’administration. Pour ces domaines, le Data Warehouse semble plus indiqué. Le Data Lake, qui s'accommode de données non cohérentes, est parfaitement adapté aux secteurs de la santé, de l’enseignement, du commerce en ligne ou de la logistique. Le lac se prête au Deep Learning, capable de traiter des données diversifiées et complexes, pour en extraire des modèles d’analyse pertinents.

4– Selon les aspects économiques et écologiques

Terminons par le chapitre essentiel de la sobriété énergétique et des coûts d’exploitation. Les entrepôts et les lacs de données sont tous deux des dispositifs conséquents, entraînant d’importantes dépenses. D’un côté, le nettoyage des données demande la conception d’ETL sophistiqués et difficiles à maintenir. De l’autre, le volume des informations à traiter exige une grande puissance de calculs. Entre les deux, le coût de stockage des données demeure nettement à l’avantage du Data Warehouse, et de l'environnement.

Impossible de conclure sans évoquer la complémentarité des deux architectures de données. Les Data Lakes utilisent les données brutes pour exploiter les bénéfices du Big Data. Les Data Warehouses restent incontournables pour les analyses des utilisateurs internes, au travers des outils de Business Intelligence. D’un point de vue professionnel, les rôles d’ingénieur de données et de data analyste profitent de possibilités de transition. Il est assez commun d’évoluer de l’un à l’autre. Si votre choix relève d’un problème de compétences, ib Cegos vous accompagne avec de nombreux parcours de formation.