Zanim zagłębimy się w architekturę hurtowni danych, należy zrozumieć, czym ona jest. Bill Inmon, powszechnie uznawany za “ojca hurtowni danych”, definiuje ją następująco:

“Zorientowany tematycznie, zintegrowany, zmienny w czasie i nieulotny zbiór danych służący wsparciu procesu podejmowania decyzji przez kierownictwo”.”

Ta zwięzła definicja oddaje istotę hurtowni danych i ma szerokie implikacje w świecie danych. Przyjrzyjmy się jej bliżej.

Kluczowe cechy hurtowni danych

Zorientowane na przedmiot

Hurtownia danych organizuje dane wokół głównych tematów, takich jak sprzedaż, klienci lub zapasy, a nie wokół poszczególnych systemów źródłowych. Zapewnia to spójny i całościowy obraz każdego tematu, umożliwiając lepszą analizę i raportowanie. Na przykład wszystkie dane dotyczące sprzedaży, niezależnie od ich źródła, mogą być logicznie pogrupowane, aby użytkownicy mogli dokładnie zbadać trendy sprzedaży.

Zintegrowany

Dane z wielu systemów źródłowych, takich jak CRM, ERP lub platformy e-commerce, są standaryzowane i uzgadniane w magazynie danych. Na przykład magazyn danych zapewnia spójność poprzez ujednolicenie różnych formatów, takich jak “Kalifornia” i “CA”.”

Zmienna w czasie

W przeciwieństwie do transakcyjnych baz danych, które koncentrują się na danych bieżących, hurtownia danych przechowuje dane historyczne z długich okresów. Umożliwia to przedsiębiorstwom analizowanie trendów, przewidywanie wyników i przeprowadzanie zaawansowanych analiz, takich jak modelowanie AI/ML.

Nieulotny

Po zapisaniu danych w hurtowni danych nie są one nadpisywane ani usuwane. Ta stabilność umożliwia spójną i wiarygodną analizę. Istniejące dane pozostają niezmienione, podczas gdy dodawane są nowe dane, co pozwala zachować integralność historyczną.

Rola architektury hurtowni danych

Architektura hurtowni danych stanowi strukturalny fundament wspierający konsolidację, przechowywanie i analizę dużych ilości danych. Integruje ona różne systemy w spójną strukturę i umożliwia podejmowanie decyzji w oparciu o dane. Architektura zapewnia elastyczny projekt, który wspiera analizę biznesową, analitykę i samoobsługowe raportowanie.

Każda organizacja, niezależnie od tego, czy została świadomie zaprojektowana, czy nie, posiada pewną formę architektury hurtowni danych. Jednak nieefektywna architektura może utrudniać wydajność, skalowalność i dostęp do danych.

Podstawowe warstwy architektury hurtowni danych

Dobrze zaprojektowana hurtownia danych składa się z kilku warstw funkcjonalnych, z których każda służy określonemu celowi. Najczęściej spotykane warstwy to:

Warstwa źródłowa
Jest to punkt wejścia, w którym dane są gromadzone z różnych systemów rejestracji (SOR). Przykłady obejmują systemy punktów sprzedaży, platformy CRM i narzędzia ERP. Formaty danych i metody ich pozyskiwania mogą się znacznie różnić w zależności od źródła.
Warstwa inscenizacji
Warstwa przejściowa służy jako tymczasowe repozytorium surowych danych przed ich przekształceniem. Na tym etapie nie stosuje się żadnej logiki biznesowej ani przekształceń, aby zapewnić integralność oryginalnych danych. Bardzo ważne jest, aby dane przejściowe nie były wykorzystywane do analizy, dopóki nie zostaną oczyszczone, zamodelowane i zweryfikowane.
Warstwa magazynowa
Jest to centralny magazyn danych, w którym dane są uporządkowane tematycznie, zintegrowane, zmienne w czasie i nieulotne. Znajdują się tu fizyczne schematy, tabele, widoki i procedury, które umożliwiają wydajne wyszukiwanie i pobieranie danych.
Warstwa konsumpcji
Znana również jako warstwa analityczna, służy do modelowania danych dla narzędzi użytkowników końcowych. Analitycy biznesowi, naukowcy zajmujący się danymi i narzędzia raportujące wykorzystują tę warstwę do wizualizacji, eksploracji i zaawansowanej analityki.

Metody pozyskiwania i przekształcania danych

Przetwarzanie wsadowe

Dane są przetwarzane w dużych ilościach w zaplanowanych odstępach czasu. Chociaż przetwarzanie wsadowe jest niezawodne i szeroko stosowane, może powodować opóźnienia i wymagać znacznych zasobów obliczeniowych.

Dane strumieniowe

Przetwarzanie strumieniowe przetwarza dane w czasie rzeczywistym lub niemal rzeczywistym w miarę ich generowania. Jest to idealne rozwiązanie w przypadku takich scenariuszy, jak analityka w czasie rzeczywistym lub systemy monitorowania. W przeciwieństwie do przetwarzania wsadowego, przetwarzanie strumieniowe zapewnia natychmiastowy wgląd w dane, ale może być bardziej skomplikowane w implementacji.

Rejestrowanie zmian danych (CDC)

CDC śledzi zmiany w systemach źródłowych, takie jak nowo utworzone lub zaktualizowane rekordy, i pobiera tylko zmodyfikowane dane. Metoda ta zapewnia wydajną synchronizację danych i minimalizuje zbędne przetwarzanie.

Wymiana danych

Nowoczesne platformy, takie jak Snowflake, umożliwiają udostępnianie danych bez ich powielania. Udostępnianie w czasie rzeczywistym wspiera skalowalną i opartą na współpracy analizę danych w rozproszonych zespołach lub organizacjach.

Elementy architektury hurtowni danych

Procesy ETL i ELT

ETL (wyodrębnianie, przekształcanie, ładowanie)

Dane są pobierane, przekształcane zgodnie z logiką biznesową, a następnie ładowane do systemu docelowego. Chociaż ETL jest niezawodny, może napotykać wyzwania związane z wydajnością i skalowalnością.

ELT (wyodrębnianie, ładowanie, przekształcanie)

W nowoczesnym podejściu surowe dane są najpierw ładowane do warstwy przejściowej, a następnie przekształcane. Platformy oparte na chmurze, takie jak Snowflake i Databricks, wykorzystują technologię ELT w celu uzyskania lepszej skalowalności i wydajności.

Usługi związane z metadanymi

Metadane, czyli “dane o danych”, zapewniają kontekst i pochodzenie danych magazynowych. Ułatwiają one efektywne modelowanie, katalogowanie i monitorowanie danych, zapewniając użytkownikom zrozumienie właściwości i historii danych.

Silniki wykonawcze

Silniki wykonawcze przetwarzają zapytania i transformacje, zazwyczaj przy użyciu języka SQL lub języków zastrzeżonych. Nowoczesne platformy obsługują integrację z językiem Python, R i narzędziami uczenia maszynowego, umożliwiając zaawansowaną analitykę.

Usługi magazynowania

Systemy pamięci masowej przechowują wszystkie dane: surowe, przygotowane i modelowane, zapewniając wydajne partycjonowanie, replikację, kompresję i zarządzanie cyklem życia. Platformy chmurowe, takie jak Amazon Redshift, Google BigQuery i Snowflake, optymalizują pamięć masową pod kątem skalowalności i efektywności kosztowej.

Zarządzanie i bezpieczeństwo

Solidne protokoły zarządzania i bezpieczeństwa, w tym uwierzytelnianie, kontrola dostępu oparta na rolach (RBAC), szyfrowanie i maskowanie danych, mają kluczowe znaczenie dla ochrony poufnych informacji.

Co dalej?

Zrozumienie tych podstawowych warstw i komponentów jest pierwszym krokiem do oceny lub zaprojektowania architektury hurtowni danych. Kluczowe pytania, które należy rozważyć, obejmują:

Czy do pozyskiwania danych użyjesz przetwarzania wsadowego, strumieniowego czy CDC?
Czy dane są przygotowywane przed transformacją?
Czy warto przejść z ETL na ELT, aby uzyskać lepszą wydajność?
Które silniki wykonawcze najlepiej spełniają Twoje wymagania analityczne?
Czy Twoje środki zarządzania i bezpieczeństwa są kompleksowe na wszystkich poziomach?

Czekajcie na więcej informacji na temat wielopoziomowych architektur hurtowni danych, gdzie omówimy, jak dostosować architekturę do wymagań organizacyjnych i wspierać samoobsługową analitykę.

Biorąc pod uwagę te aspekty, będziesz lepiej przygotowany do zaprojektowania hurtowni danych, która zapewni skalowalne, niezawodne i przydatne informacje.

Udostępnij

Architektura hurtowni danych