Buinsoft
Bloga dön
DataDWH

Veri Ambarı Mimarisi Nedir? (DWA)

B
Buinsoft TeamYazar
Dec 4, 2024
Veri Ambarı Mimarisi Nedir? (DWA)

Veri Ambarı Mimarisi

Veri Ambarı mimarisine geçmeden önce, Veri Ambarının ne olduğunu anlamak çok önemlidir. "Veri Ambarcılığının Babası" olarak bilinen Bill Inmon, bunu şu şekilde tanımlar: "Yönetimin karar alma sürecini desteklemek için konu odaklı, entegre, zamana bağlı ve kalıcı bir veri koleksiyonu." Bu özlü tanım, Veri Ambarcılığının özünü yakalar ve veri dünyasında geniş kapsamlı etkileri vardır. Bunu daha yakından inceleyelim.

Veri Ambarının Temel Özellikleri

  • Konu Odaklı
Veri ambarı, verileri bireysel kaynak sistemleri yerine satışlar, müşteriler veya envanter gibi merkezi temalar etrafında düzenler. Bu, her bir konu hakkında birleşik ve bütünsel bir görünüm sağlayarak daha iyi analiz ve raporlamaya olanak tanır. Örneğin, kaynağı ne olursa olsun tüm satış verileri, kullanıcıların satış trendlerini kapsamlı bir şekilde inceleyebilmesi için mantıksal olarak gruplandırılabilir.
  • Entegre
CRM, ERP veya e-ticaret platformları gibi birden fazla kaynak sisteminden gelen veriler, veri ambarında standartlaştırılır ve birleştirilir. Örneğin, Veri Ambarı, "California" ve "CA" gibi farklı formatları birleştirerek tutarlılığı sağlar.
  • Zamanla Değişen
Güncel verilere odaklanan işlem tabanlı veritabanlarının aksine, Veri Ambarı uzun dönemlere ait geçmiş verileri depolar. Bu, işletmelerin trendleri analiz etmesine, sonuçları tahmin etmesine ve yapay zeka/makine öğrenimi modellemesi gibi gelişmiş analizler yapmasına olanak tanır.
  • Uçucu Olmayan
Veri ambarına kaydedilen veriler, üzerine yazılmaz veya silinmez. Bu istikrar, tutarlı ve güvenilir analizler yapılmasını sağlar. Mevcut veriler değişmeden kalırken, yeni veriler eklendiğinde tarihsel bütünlük korunur.

Veri Ambarı Mimarisinin Rolü

Veri ambarının mimarisi, büyük veri hacimlerinin birleştirilmesi, depolanması ve analizini destekleyen yapısal omurgayı oluşturur. Farklı sistemleri tutarlı bir çerçeveye entegre eder ve veri odaklı karar vermeyi mümkün kılar. Mimari, İş Zekası, analitik ve kendi kendine raporlamayı destekleyen çevik bir tasarım sunar. Her kuruluş, bilinçli olarak tasarlanmış olsun ya da olmasın, bir tür Veri Ambarı mimarisine sahiptir. Bununla birlikte, verimsiz bir mimari performansı, ölçeklenebilirliği ve veri erişimini engelleyebilir.

Veri Ambarı Mimarisinin Temel Katmanları

İyi tasarlanmış bir Veri Ambarı, her biri belirli bir amaca hizmet eden çeşitli işlevsel katmanlardan oluşur. En yaygın katmanlar şunlardır:
  • Kaynak Katmanı: Bu, çeşitli kayıt sistemlerinden (SOR) verilerin toplandığı giriş noktasıdır. Örnekler arasında satış noktası sistemleri, CRM platformları ve ERP araçları yer alır. Veri formatları ve alım yöntemleri kaynağa bağlı olarak önemli ölçüde değişebilir.
  • Hazırlık Katmanı Hazırlık katmanı, dönüştürme işleminden önce ham veriler için geçici bir depo görevi görür. Bu aşamada, orijinal verilerin bütünlüğünü sağlamak için herhangi bir iş mantığı veya dönüştürme uygulanmaz. Hazırlık aşamasındaki verilerin temizlenip, modellenip ve doğrulanana kadar analiz için kullanılmaması çok önemlidir.
  • Veri Ambarı Katmanı: Bu, verilerin konu odaklı, entegre, zamana bağlı ve kalıcı hale geldiği merkezi depolama merkezidir. Fiziksel şemalar, tablolar, görünümler ve prosedürler burada yer alarak verimli sorgulama ve veri alma işlemlerini mümkün kılar.
  • Tüketim Katmanı Analitik katman olarak da bilinen bu katmanda, veriler son kullanıcı araçları için modellenir. İş analistleri, veri bilimciler ve raporlama araçları bu katmanı görselleştirme, keşif ve gelişmiş analizler için kullanır.

Veri Alımı ve Dönüştürme Yöntemleri

Toplu İşleme

Veriler, planlanmış aralıklarla büyük hacimlerde işlenir. Güvenilir ve yaygın olarak kullanılan toplu işleme, gecikmeye neden olabilir ve önemli hesaplama kaynakları gerektirebilir.

Akış Verileri

Akış işlemleri, verileri üretildiği anda gerçek zamanlı veya gerçek zamana yakın bir şekilde işler. Gerçek zamanlı analiz veya izleme sistemleri gibi senaryolar için idealdir. Toplu işlemenin aksine, akış işlemleri anında bilgi sağlar ancak uygulanması daha karmaşık olabilir.

Değişiklik Verisi Yakalama (CDC)

CDC, yeni oluşturulan veya güncellenen kayıtlar gibi kaynak sistemlerdeki değişiklikleri izler ve yalnızca değiştirilen verileri alır. Bu yöntem, verimli veri senkronizasyonu sağlar ve gereksiz işlemeyi en aza indirir.

Veri Paylaşımı

Snowflake gibi modern platformlar, verilerin tekrarlanmadan paylaşılmasına olanak tanır. Gerçek zamanlı paylaşım, dağıtılmış ekipler veya kuruluşlar genelinde ölçeklenebilir ve işbirlikçi analitiği destekler.

Veri Ambarının Mimari Bileşenleri

ETL ve ELT Süreçleri

ETL (Veri Çıkarma, Dönüştürme, Yükleme)

Veriler çıkarılır, iş mantığına uygun hale getirilmek üzere dönüştürülür ve ardından hedef sisteme yüklenir. G��venilir olmasına rağmen, ETL performans ve ölçeklenebilirlik açısından zorluklarla karşılaşabilir.

ELT (Çıkarma, Yükleme, Dönüştürme)

Modern yaklaşım, ham verileri önce hazırlık katmanına yükler ve ardından dönüştürür. Snowflake ve Databricks gibi bulut tabanlı platformlar, daha iyi ölçeklenebilirlik ve performans için ELT kullanır.

Meta Veri Hizmetleri

Meta veri veya "veri hakkında veri", veri ambarı verileri için bağlam ve kaynak bilgisi sağlar. Veri modelleme, kataloglama ve izleme işlemlerini kolaylaştırarak kullanıcıların verilerin özelliklerini ve geçmişini anlamalarını sağlar.

Yürütme Motorları

Sorgu işleme motorları, genellikle SQL veya özel diller kullanarak sorguları ve dönüşümleri işler. Modern platformlar, gelişmiş analizleri mümkün kılmak için Python, R ve makine öğrenimi araçlarıyla entegrasyonları destekler.

Depolama Hizmetleri

Depolama sistemleri, ham, işlenmiş ve modellenmiş tüm verileri barındırarak verimli bölümleme, çoğaltma, sıkıştırma ve yaşam döngüsü yönetimini sağlar. Amazon Redshift, Google BigQuery ve Snowflake gibi bulut platformları, ölçeklenebilirlik ve maliyet verimliliği için depolamayı optimize eder.

Yönetişim ve Güvenlik

Kimlik doğrulama, rol tabanlı erişim kontrolü (RBAC), şifreleme ve veri maskeleme gibi sağlam yönetim ve güvenlik protokolleri, hassas bilgilerin korunması için kritik öneme sahiptir.

Sırada Ne Var?

Bu temel katmanları ve bileşenleri anlamak, Veri Ambarı mimarinizi değerlendirmenin veya tasarlamanın ilk adımıdır. Dikkate alınması gereken önemli sorular şunlardır:
  • Veri alımı için toplu işleme, akışlı işleme veya CDC yöntemlerinden hangisini kullanacaksınız?
  • Dönüştürme işleminden önce verileriniz işleniyor mu?
  • Daha iyi performans için ETL'den ELT'ye geçiş yapmalı mısınız?
  • Analitik gereksinimlerinizi en iyi karşılayan yürütme motorları hangileridir?
  • Yönetişim ve güvenlik önlemleriniz tüm katmanlarda kapsamlı mı?
Çok katmanlı Veri Ambarı mimarileri hakkında daha fazla bilgi için bizi takip etmeye devam edin; burada mimarinizi kurumsal gereksinimlere nasıl uyarlayacağınızı ve kendi kendine hizmet veren analitiği nasıl geliştireceğinizi inceleyeceğiz. Bu yönleri dikkate alarak, ölçeklenebilir, güvenilir ve eyleme geçirilebilir içgörüler sağlayan bir Veri Ambarı tasarlamak için daha donanımlı olacaksınız.