Bevor wir uns mit der Architektur eines Data Warehouse befassen, ist es wichtig zu verstehen, was ein Data Warehouse überhaupt ist. Bill Inmon, weithin als “Vater des Data Warehousing” anerkannt, definiert es wie folgt:

“Eine themenorientierte, integrierte, zeitvariable und nichtflüchtige Datensammlung zur Unterstützung des Entscheidungsprozesses des Managements.”

Diese prägnante Definition erfasst den Kern des Data Warehousing und hat weitreichende Auswirkungen auf die Welt der Daten. Schauen wir uns das genauer an.

Wesentliche Merkmale eines Data Warehouse

Themenorientiert

Ein Data Warehouse organisiert Daten nach zentralen Themen wie Umsatz, Kunden oder Lagerbestand und nicht nach einzelnen Quellsystemen. Dies gewährleistet eine einheitliche und ganzheitliche Sicht auf jedes Thema und ermöglicht so eine bessere Analyse und Berichterstellung. So können beispielsweise alle Umsatzdaten, unabhängig von ihrer Quelle, logisch gruppiert werden, damit Benutzer die Umsatztrends gründlich untersuchen können.

Integriert

Daten aus mehreren Quellsystemen, wie CRM-, ERP- oder E-Commerce-Plattformen, werden im Warehouse standardisiert und abgeglichen. Das Data Warehouse sorgt beispielsweise für Konsistenz, indem es unterschiedliche Formate wie “Kalifornien” und “CA” vereinheitlicht.”

Zeitvariabel

Im Gegensatz zu Transaktionsdatenbanken, die sich auf aktuelle Daten konzentrieren, speichert ein Data Warehouse historische Daten über lange Zeiträume. Dies ermöglicht es Unternehmen, Trends zu analysieren, Ergebnisse vorherzusagen und erweiterte Analysen wie KI/ML-Modellierung durchzuführen.

Nichtflüchtig

Sobald Daten in einem Data Warehouse gespeichert sind, werden sie nicht überschrieben oder gelöscht. Diese Stabilität ermöglicht konsistente und zuverlässige Analysen. Bestehende Daten bleiben unverändert, während neue Daten hinzugefügt werden, wodurch die historische Integrität gewahrt bleibt.

Die Rolle der Data-Warehouse-Architektur

Die Architektur eines Data Warehouse bildet das strukturelle Rückgrat, das die Konsolidierung, Speicherung und Analyse großer Datenmengen unterstützt. Sie integriert unterschiedliche Systeme in ein einheitliches Framework und ermöglicht datengestützte Entscheidungen. Die Architektur bietet ein agiles Design, das Business Intelligence, Analysen und Self-Service-Reporting unterstützt.

Jede Organisation, ob bewusst gestaltet oder nicht, verfügt über eine Form von Data-Warehouse-Architektur. Eine ineffiziente Architektur kann jedoch die Leistung, Skalierbarkeit und den Datenzugriff beeinträchtigen.

Kernschichten der Data-Warehouse-Architektur

Ein gut konzipiertes Data Warehouse besteht aus mehreren funktionalen Ebenen, die jeweils einem bestimmten Zweck dienen. Die gängigsten Ebenen sind:

Quellschicht
Dies ist der Einstiegspunkt, an dem Daten aus verschiedenen Aufzeichnungssystemen (SOR) erfasst werden. Beispiele hierfür sind Kassensysteme, CRM-Plattformen und ERP-Tools. Datenformate und Erfassungsmethoden können je nach Quelle erheblich variieren.
Staging-Ebene
Die Staging-Ebene dient als temporärer Speicherort für Rohdaten vor der Transformation. In dieser Phase werden keine Geschäftslogik oder Transformationen angewendet, um die Integrität der Originaldaten zu gewährleisten. Es ist von entscheidender Bedeutung, dass Staging-Daten erst nach ihrer Bereinigung, Modellierung und Validierung für Analysen verwendet werden.
Lagerarbeiter
Dies ist der zentrale Speicherort, an dem Daten themenorientiert, integriert, zeitvariabel und nichtflüchtig werden. Physische Schemata, Tabellen, Ansichten und Prozeduren befinden sich hier, um eine effiziente Abfrage und Abrufbarkeit zu ermöglichen.
Verbrauchsebene
Auch als Analyseebene bekannt, ist dies der Ort, an dem Daten für Endbenutzer-Tools modelliert werden. Business-Analysten, Datenwissenschaftler und Reporting-Tools nutzen diese Ebene für Visualisierung, Erkundung und erweiterte Analysen.

Methoden zur Datenerfassung und -umwandlung

Stapelverarbeitung

Daten werden in großen Mengen in festgelegten Intervallen verarbeitet. Die Stapelverarbeitung ist zwar zuverlässig und weit verbreitet, kann jedoch zu Latenzzeiten führen und erhebliche Rechenressourcen erfordern.

Streaming-Daten

Streaming verarbeitet Daten in Echtzeit oder nahezu in Echtzeit, sobald sie generiert werden. Es eignet sich ideal für Szenarien wie Echtzeitanalysen oder Überwachungssysteme. Im Gegensatz zur Stapelverarbeitung bietet Streaming sofortige Einblicke, kann jedoch komplexer in der Umsetzung sein.

Änderungsdatenerfassung (CDC)

CDC verfolgt Änderungen in Quellsystemen, wie beispielsweise neu erstellte oder aktualisierte Datensätze, und übernimmt nur die geänderten Daten. Diese Methode gewährleistet eine effiziente Datensynchronisation und minimiert redundante Verarbeitungsschritte.

Datenaustausch

Moderne Plattformen wie Snowflake ermöglichen die gemeinsame Nutzung von Daten ohne Duplikate. Die gemeinsame Nutzung in Echtzeit unterstützt skalierbare und kollaborative Analysen über verteilte Teams oder Organisationen hinweg.

Architektonische Komponenten eines Data Warehouse

ETL- und ELT-Prozesse

ETL (Extrahieren, Transformieren, Laden)

Daten werden extrahiert, entsprechend der Geschäftslogik transformiert und anschließend in das Zielsystem geladen. ETL ist zwar zuverlässig, kann jedoch Herausforderungen hinsichtlich Leistung und Skalierbarkeit mit sich bringen.

ELT (Extrahieren, Laden, Transformieren)

Der moderne Ansatz lädt Rohdaten zunächst in die Staging-Ebene und transformiert sie dann. Cloud-basierte Plattformen wie Snowflake und Databricks verwenden ELT für eine bessere Skalierbarkeit und Leistung.

Metadaten-Dienste

Metadaten, oder “Daten über Daten”, liefern Kontext und Herkunftsinformationen für Daten im Warehouse. Sie erleichtern die effiziente Datenmodellierung, Katalogisierung und Überwachung und stellen sicher, dass Benutzer die Eigenschaften und die Historie der Daten verstehen.

Ausführungsmaschinen

Ausführungs-Engines verarbeiten Abfragen und Transformationen, in der Regel unter Verwendung von SQL oder proprietären Sprachen. Moderne Plattformen unterstützen Integrationen mit Python, R und Machine-Learning-Tools, um erweiterte Analysen zu ermöglichen.

Speicherdienste

Speichersysteme beherbergen alle Daten: Rohdaten, zwischengespeicherte Daten und modellierte Daten. Sie gewährleisten eine effiziente Partitionierung, Replikation, Komprimierung und Lebenszyklusverwaltung. Cloud-Plattformen wie Amazon Redshift, Google BigQuery und Snowflake optimieren die Speicherung im Hinblick auf Skalierbarkeit und Kosteneffizienz.

Governance und Sicherheit

Robuste Governance- und Sicherheitsprotokolle, darunter Authentifizierung, rollenbasierte Zugriffskontrolle (RBAC), Verschlüsselung und Datenmaskierung, sind für den Schutz sensibler Informationen von entscheidender Bedeutung.

Was kommt als Nächstes?

Das Verständnis dieser grundlegenden Ebenen und Komponenten ist der erste Schritt zur Bewertung oder Gestaltung Ihrer Data-Warehouse-Architektur. Zu den wichtigsten Fragen, die es zu berücksichtigen gilt, gehören:

Wirst du Batch-Verarbeitung, Streaming oder CDC für die Datenerfassung nutzen?
Werden Ihre Daten vor der Transformation bereitgestellt?
Sollten Sie für eine bessere Leistung von ETL zu ELT wechseln?
Welche Ausführungs-Engines erfüllen Ihre Analyseanforderungen am besten?
Sind Ihre Governance- und Sicherheitsmaßnahmen auf allen Ebenen umfassend?

Bleiben Sie dran für weitere Einblicke in mehrschichtige Data-Warehouse-Architekturen, in denen wir untersuchen, wie Sie Ihre Architektur an die Anforderungen Ihres Unternehmens anpassen und Self-Service-Analysen fördern können.

Wenn Sie diese Aspekte berücksichtigen, sind Sie besser gerüstet, um ein Data Warehouse zu entwerfen, das skalierbare, zuverlässige und umsetzbare Erkenntnisse liefert.

Datenlagerarchitektur