Avant de se plonger dans l'architecture d'un entrepôt de données, il est essentiel de comprendre ce qu'est un entrepôt de données. Bill Inmon, largement reconnu comme le “ père du stockage de données ”, le définit comme suit :

“ Ensemble de données orientées vers un sujet, intégrées, variables dans le temps et non volatiles, destiné à soutenir le processus décisionnel de la direction. ”

Cette définition concise résume l'essence même du stockage de données et a de vastes implications dans le monde des données. Analysons-la de plus près.

Caractéristiques clés d'un entrepôt de données

Orienté sujet

Un entrepôt de données organise les données autour de thèmes centraux tels que les ventes, les clients ou les stocks plutôt que selon les systèmes sources individuels. Cela garantit une vue unifiée et holistique de chaque sujet, permettant ainsi une meilleure analyse et un meilleur reporting. Par exemple, toutes les données de vente, quelle que soit leur source, peuvent être regroupées de manière logique afin que les utilisateurs puissent explorer en profondeur les tendances des ventes.

Intégré

Les données provenant de plusieurs systèmes sources, tels que les plateformes CRM, ERP ou e-commerce, sont normalisées et rapprochées dans l'entrepôt. Par exemple, l'entrepôt de données garantit la cohérence en unifiant différents formats tels que “ Californie ” et “ CA ”.”

Variable dans le temps

Contrairement aux bases de données transactionnelles qui se concentrent sur les données actuelles, un entrepôt de données stocke les données historiques sur de longues périodes. Cela permet aux entreprises d'analyser les tendances, de prédire les résultats et d'effectuer des analyses avancées telles que la modélisation IA/ML.

Non volatile

Une fois les données stockées dans un entrepôt de données, elles ne sont ni écrasées ni supprimées. Cette stabilité permet une analyse cohérente et fiable. Les données existantes restent inchangées tandis que de nouvelles données sont ajoutées, ce qui préserve l'intégrité historique.

Le rôle de l'architecture d'entrepôt de données

L'architecture d'un entrepôt de données constitue la structure fondamentale qui soutient la consolidation, le stockage et l'analyse de grands volumes de données. Elle intègre des systèmes disparates dans un cadre cohérent et permet une prise de décision fondée sur les données. L'architecture offre une conception agile qui prend en charge la veille économique, l'analyse et le reporting en libre-service.

Chaque organisation, qu'elle ait été conçue consciemment ou non, dispose d'une forme d'architecture d'entrepôt de données. Cependant, une architecture inefficace peut nuire aux performances, à l'évolutivité et à l'accès aux données.

Couches fondamentales de l'architecture d'entrepôt de données

Un entrepôt de données bien conçu se compose de plusieurs couches fonctionnelles, chacune ayant un objectif spécifique. Les couches les plus courantes sont les suivantes :

Couche source
Il s'agit du point d'entrée où les données sont collectées à partir de divers systèmes d'enregistrement (SOR). Citons par exemple les systèmes de point de vente, les plateformes CRM et les outils ERP. Les formats de données et les méthodes d'ingestion peuvent varier considérablement en fonction de la source.
Couche de mise en scène
La couche de préparation sert de référentiel temporaire pour les données brutes avant leur transformation. Au cours de cette phase, aucune logique métier ni transformation n'est appliquée afin de garantir l'intégrité des données d'origine. Il est essentiel que les données de préparation ne soient pas utilisées à des fins d'analyse avant d'avoir été nettoyées, modélisées et validées.
Niveau d'entrepôt
Il s'agit du centre de stockage central où les données sont organisées par sujet, intégrées, variables dans le temps et non volatiles. Les schémas physiques, les tables, les vues et les procédures y sont stockés afin de permettre des requêtes et des récupérations efficaces.
Couche de consommation
Également appelée « couche analytique », c'est là que les données sont modélisées pour les outils destinés aux utilisateurs finaux. Les analystes commerciaux, les scientifiques des données et les outils de reporting utilisent cette couche pour la visualisation, l'exploration et les analyses avancées.

Méthodes d'ingestion et de transformation des données

Traitement par lots

Les données sont traitées en grands volumes à intervalles réguliers. Bien que fiable et largement utilisé, le traitement par lots peut entraîner des latences et nécessiter d'importantes ressources informatiques.

Données en continu

Le streaming traite les données en temps réel ou quasi réel, au fur et à mesure qu'elles sont générées. Il est idéal pour des scénarios tels que l'analyse en temps réel ou les systèmes de surveillance. Contrairement au traitement par lots, le streaming offre des informations immédiates, mais peut être plus complexe à mettre en œuvre.

Capture des données modifiées (CDC)

Le CDC suit les modifications apportées aux systèmes sources, telles que les enregistrements nouvellement créés ou mis à jour, et n'ingère que les données modifiées. Cette méthode garantit une synchronisation efficace des données et minimise les traitements redondants.

Partage des données

Les plateformes modernes telles que Snowflake permettent de partager des données sans duplication. Le partage en temps réel facilite l'analyse évolutive et collaborative entre les équipes ou les organisations distribuées.

Composants architecturaux d'un entrepôt de données

Processus ETL et ELT

ETL (Extraction, Transformation, Chargement)

Les données sont extraites, transformées pour répondre à la logique métier, puis chargées dans le système cible. Bien que fiable, l'ETL peut rencontrer des difficultés en termes de performances et d'évolutivité.

ELT (Extraction, Chargement, Transformation)

L'approche moderne consiste à charger d'abord les données brutes dans la couche intermédiaire, puis à les transformer. Les plateformes basées sur le cloud telles que Snowflake et Databricks utilisent l'ELT pour améliorer l'évolutivité et les performances.

Services de métadonnées

Les métadonnées, ou “ données sur les données ”, fournissent le contexte et la provenance des données stockées dans l'entrepôt. Elles facilitent la modélisation, le catalogage et la surveillance efficaces des données, garantissant ainsi que les utilisateurs comprennent les propriétés et l'historique des données.

Moteurs d'exécution

Les moteurs d'exécution traitent les requêtes et les transformations, généralement à l'aide de SQL ou de langages propriétaires. Les plateformes modernes prennent en charge les intégrations avec Python, R et les outils d'apprentissage automatique afin de permettre des analyses avancées.

Services de stockage

Les systèmes de stockage hébergent toutes les données : brutes, mises en scène et modélisées, garantissant un partitionnement, une réplication, une compression et une gestion du cycle de vie efficaces. Les plateformes cloud telles qu'Amazon Redshift, Google BigQuery et Snowflake optimisent le stockage pour plus d'évolutivité et de rentabilité.

Gouvernance et sécurité

Des protocoles de gouvernance et de sécurité robustes, notamment l'authentification, le contrôle d'accès basé sur les rôles (RBAC), le chiffrement et le masquage des données, sont essentiels pour protéger les informations sensibles.

Et ensuite ?

Comprendre ces couches et composants fondamentaux est la première étape pour évaluer ou concevoir l'architecture de votre entrepôt de données. Voici quelques questions clés à prendre en considération :

Utiliserez-vous le traitement par lots, le streaming ou le CDC pour l'ingestion des données ?
Vos données sont-elles préparées avant leur transformation ?
Devriez-vous passer de l'ETL à l'ELT pour améliorer les performances ?
Quels moteurs d'exécution répondent le mieux à vos besoins en matière d'analyse ?
Vos mesures de gouvernance et de sécurité sont-elles exhaustives à tous les niveaux ?

Restez à l'écoute pour en savoir plus sur les architectures de data warehouse à plusieurs niveaux, où nous explorerons comment adapter votre architecture aux besoins de votre organisation et favoriser l'analyse en libre-service.

En tenant compte de ces aspects, vous serez mieux armé pour concevoir un entrepôt de données qui prend en charge des informations évolutives, fiables et exploitables.

Architecture d'entrepôt de données