Home / MAKALELER / Veri Ambarı / Veri Ambarı Tarihçesi ve Özellikleri

Veri Ambarı Tarihçesi ve Özellikleri

Veri ambarı sistemlerinin ne olduğunu açıklamadan önce, neden veri ambarlarına ihtiyaç duyduğumuzu ve kronolojik gelişim sürecini birlikte inceleyelim.

 

 

Charles Coolidge Parlin (1872-1942), pazar araştırmaları geliştirmiş ve pazarlama araştırmalarının babası olarak kabul edilmiştir. Curtis Publishing Co. adındaki şirketinin bünyesinde müşteri-satış merkezli çalışmalarla, şirket reklamcılığına farklı bir boyut getirmiştir.

 

 

Artur C. Nielsen (1923), modern pazarlama sisteminin ilk kurucularındandır. Tüketici odaklı pazarlama ve medya araştırmaları ile yapılan inovasyonlar sonucunda, benzersiz perakende-ölçüm tekniğini geliştirmiştir. Nielsen’in araştırmaları sonucunda “pazar payı” kavramının ne kadar önemli olduğu ortaya çıkmıştır.

 

İlginçtir ki, pazarlama kökenli bu iki araştırmacı, veri ambarı sistemlerinin doğuşuna öncülük etmiştir. Yaptıkları çalışmalarla, yüksek kalitedeki verilerin formüle edildikten sonra, ne gibi fayda sağladığını ölçmüş ve gösterebilmişlerdir.

 

 

1970’li yıllarda, veri ambarının temel taşı olan veri, sadece kayıt altında tutulabilmekte ve basit şekilde erişilebilmekteydi. Verilerin işlenmesi ve bu veriler üzerinde müşteri-satış çıkarımları yapmak ise imkansızdı.

 

 

70’li yılların sonunda, 13 Temmuz 1979 tarihinde, Brentwood California’da bir garajda kurulan Teradata, ismini Terabyte boyutundaki veriyi yönetme misyonundan hareketle belirledi. 1976 ile 1979 yılları arasında yeni bir konsept ile kurulan Teradata, California Institute of Technology (Caltech) bünyesinde araştırmalarına başladı. Kurucularının amacı, karar destek mekanizmaları için paralel işlem yapabilme gücüne sahip çok işlemcili, yeni bir veri tabanı mimarisi gerçekleştirmekti.

 

 

1980’li yıllarda, bilgisayarlar ve kullanım alanları yaygınlaştı. Eskiden şirketlerin sahip olduğu bilgisayarlar, evlere girmeye başladı. Veri, artık tek bir yerde değil, dağınık ve artan şekilde hızla çoğalmaktaydı. Peki bu dağınık verilere nasıl ulaşılabilecekti? Bu sorunun cevabı olarak, (Distributed Database Management System – DDMS) dağınık veritabanı yöntemi sistemlerinin doğuşu gerçekleşti. Veriler burada birleştirilerek, sıralanarak ve sınıflandırılarak saklanmaya başlandı. Fakat, bu seferde bu kadar dağınık verileri işlemek zorlaşmıştı. İşte bu noktada, Teradata, bu problemin çözümü için çalışmalara başladı. Well Fargo Bankası, Teradata’nın çalışmaları sonrası ortaya çıkan ilk ilişkisel veritabanı yönetim sistemini (Relational Database Management System – RDBMS), karar destek mekanizmasında test çalışmaları yapmak için 1983 yılında satın aldı. 1984 yılında ise, Teradata bu ürününün ilk versiyonunu pazara sunmuştu.

 

 

1990’lı yıllar halen karar destek yapıları için tatmin edici değildi. Çünkü, yüksek miktardaki veriyi saklama, işleme ve sunma kapasitesi, tam manasıyla elde edilememişti. Bu dönemde, girişimcilerin de yeni gelişen internet dünyasına ilgi duymaya başlaması ile durum biraz yavaş ilerledi. Farklı sistemlerden gelen bu verilerin işlenmesi, çok daha zor hale gelmişti.

 

 

1993 yılında, bir çok kişi tarafından modern veri ambarı mimarisinin babası olarak kabul edilen Bill Inmon, yazdığı Veri Ambarı Tasarımı (Building Data Warehousing -Wiley) adlı kitabıyla, ses getirdi.

 

 

Bill Inmon’ın kitabına ek olarak Ralph Kimball, 1996 yılında yayınladığı Data Warehousing Toolkit -Wiley- kitabıyla, boyutlu veri ambarı tasarımı dizaynının genel gereksinimleri, sorgu odaklı karar destek sistemlerinin geliştirilmesi üzerine yorumlar getirdi.

 

Yazılımsal ve donanımsal açıdan veri ambarcılığı fikrinin yaygın hale gelmesi ile Inmon ve Kimball’in veri ambarı modelleri üzerinde çalışmalar başladı. Buradaki fikir, önceki kuramlara nazaran verilerin nasıl kopyalanacağı, nasıl taşınıp ana veri tabanlarına ulaşacağı ya da kaç farklı bilgisayardan verilerin alınacağından ziyade, karar destek yapıları için istenen verilerin nasıl en iyi şekilde elde edilebileceğiydi?

 

 

2000’li yıllarda, veriler, cep telefonlarından, web sitelerinden, kişisel bilgisayarlardan, internet günlüklerinden, çeşitli kişisel cihazlardan, gelmeye başlamıştı. Verinin bu hızla artması, veri ambarcılığı pazarına yönelik büyük şirketlerin dikkatini çekti. 2006 yılında, Microsoft, ProClarity firmasını satın alarak piyasaya adımını attı. 2007 yılında, Oracle, Hyprion’u; SAP, Business Objects’i satın aldı. IBM ise Cognos ile güçlerini birleştirdi. Haliyle, veri ambarcılığı pazarındaki güçbirlikleri, gelişmeleri daha da hızlandırdı.

 

 

Bugün, orta ve büyük ölçekli tüm şirketlerin veri ambarı yapıları oturdu. Tarihsel gelişimi sonrasında veri ambarı ve özelliklerini inceleyelim.

 

 

Veri Ambarı nedir ?

 

 

En basit tanımı ile ilişkisel verilerin bulunduğu, büyük hacimli, tarihsel derinliği olan ve çeşitli analizlerin çıkarıldığı yapılardır. DW sistemleri (Data Warehouse), iki önemli noktada bize yardımcı olmaktadır. Birincisi, karar destek sistemleri; ikincisi ise, çeşitli operasyonel sistemlerden gelen verilerin temizlenme, dönüştürme ve saklanması işlevidir.

 

 

Bu iki yapıda, tarihsel derinliği olan analitik ve iş zekası ihtiyaçlarına destek verecek şekilde tasarlanmıştır.

 

 

    Karar destek sistemleri; veri hakkındaki ayrıntılı bilgiye ulaşabilen ve çıkarımlarda bulunabilen sistemlerdir. Verinin nereden geldiği, nasıl olduğu , ne olması gerektiği ve gelecekte ne olabileceği hakkındaki sorulara cevap arar.

 

 

Veri ambarcılığında, söz sahibi olan Inmon ve Kimball, datawarehouse yapısına iki farklı bakış açısı getirmişlerdir.

 

Inmon, veri ambarı sistemlerini; konu odaklı,bütünleşik,kalıcı ve zaman bağımlı bir yapıda olduğunu ifade eder. Bunları kısaca inceleyecek olursak;

 

Konu Odaklı

 

 

Inmon’a göre veri ambarları konu odaklı inşaa edilirler.Böylecelikle uzun vadede şirket kararlarının oluşmasına yardımcı olur.Konu odaklı olması hem belirli bir alandaki sorulara cevap almamızı kolaylaştırır hemde bizi gereksiz veri tekrarlarından kurtarmış olur. Kurumun müşteri,satış,ürün,alım-satım,dağıtım..vb bilgilerini içeren bir konu bütünlüğü vardır.

 

Entegre Edilmiş

 

 

Veri ambarlarına gelen farklı türdeki verilerin tek bir ortamda entegre olması anlamına gelir.Veriler arasındaki bütünlük ve doğruluk bu aşamada sağlanır.

 

 

Kalıcılık

 

Veri ambarlarında veriler silinmez veya güncellenmez ,kalıcıdır.Silinme veya güncelleme işlemi gerçekleştiği zaman geçmişe yönelik veriler ile sağlıklı analizler yapmak mümkün olmayacaktır.Bundan dolayı veri sürekli artarak devam eder.

 

Zamana Bağlı

 

 

Veriambarları geçmişe yönelik verileri barındırır.Bu veriler 5-10 yıl veya daha fazla olabilir.Zaman bağımlı olması veri ambarı sisteminin en önemli özelliklerinden birisidir.

 

Kimball yaklaşımında ise öncelikli olarak, iş ihtiyaçları belirlenir ve bu iş ihtiyaçlarına göre Data Mart-Veri Pazarları modellenerek veri ambarı oluşur. Veri ambarları, konu odaklı bu yapıların birleşmesinden oluşur. Bu farklı konulardan oluşan yapıları birleştirmek içinse “confurmed dimensional” uygun boyutsal adını verdiği bir yapı bulunur.Bu yapıda benzer niteliklerdeki veri pazarları’nın birbirleriyle biçim uyumsuzluğunun girilmesi amaçlanmıştır.Böylece veri pazarlarının birleşiminden ne gibi sonuçların çıkacağı analiz edilebilir.

 

 

Bu yapılardan hangisini tercih edeceğiniz ise gelişen ve değişen iş ihtiyaçlarınıza göre şekillenebilir. Genel olarak kullanılan metod ise, Inmon’ın bahsetmiş olduğu yapıdır.

 

 

Genel Veri Ambarı Yapısı

 

DWH

 

Örnek bir veri ambarı yapısını inceleyecek olursak, ilk ele alacağımız yapı  (External Data) dış kaynaklardan gelen veriler ve  ODS (Operational Data Store-Operasyonel Veri Saklama) katmanlarımızdır.

 

 

External Data

 

Harici kaynaktan gelen veri çeşitleri; xml dosyları, txt, cvs, mesaj sistemleri olacağı  gibi, çok farklı veri tiplerini kapsar.Bu veriler daha sonra Staging alanına aktarılmaktadır.

 

ODS (Operational Data Store)

 

Operasyonel işlemlerin yapılacağı ortamdır. Veri ambarı yapılarından farkı ise, buradaki veriler geçici olabilirken, veri ambarlarındaki veriler kalıcıdır. Veri ambarına göre çok az tarihsel derinliği vardır (30-180 gün). Gerçek zamana çok yakın veriler buradan raporlanabilir. ODS sistemlerinde de veri ambarlarında olduğu gibi veri entegrasyonu vardır. Tutarlı, birbiri içinde uygun veri yapısı ve modeli kullanılmaktadır.

 

Staging Area(Sahneleme Alanı)

 

Verilerin geçici olarak saklandığı yerlerdir. Buradaki  verilerin  (veri ambarı yapınıza göre değişmekle beraber) 7-30 gün aralığında kalıcılığı vardır ve veri ambarılarına buradaki veriler yüklenir. Sahneleme alanında veriler, veri ambarına gitmeden temizlenir, kaliteli hale getirilir ve  belirli standartlara uyumu sağlanır. Veriler burada sınıflandırılabilir ve sıralanabilir.

 

Staging alanının gerekliliğini iyi anlamamız gerekir. Veri ambarlarına gelen veriler eğer direk kaynak sistemden aktarılsaydı, hem maliyet hem performans açısından çok kötü sonuçlar doğururdu. Kaynak sistemden gelen verilerin staging alanında bekletilmesi ve toplanması hem gereksiz I/O sorununu ortadan kaldırır hemde kaynak sistemden veri aktarılırken olabilecek hatalar sonucunda veri ambarı yapısının bozulmasının önüne geçilmiş olur. Melez bir yapıda olan bu katmanda veri kalıcılığının bu aşamada başlaması bazı kurallarıda beraberinde getirir.Öncelikle bu alan için oluşturacağınız yapıda sorumlulukları paylaştırmak ve staging alanınızın sınırlarının belirli olması gerekmektedir. Kullanıcıların bu alana erişimi kısıtlanmalı ve gereksiz ve yetkisi olmayan verilere erişimi engellenmelidir.

 

Tekrar yapımıza dönecek olursak,

 

Veriler entegrasyon katmanında işlendikten sonra veri ambarına atılmaktadır. Entegrasyon katmanında normalize edilmiş, ilişkisel bu veriler veri ambarında sürekli olarak saklanır.

 

Buraya kadar verilerin çok farklı kaynaktan gelebileceğini ve veri ambarlarına gelen bu verilerin daha kaliteli, ilişkisel, normalize edilmiş, sıralanmış, sınıflandırılmış olması için  ara bir katman oluşturduğumuzu söyledik. Bundan sonraki kısımda ise veri pazarlarından (data mart’lardan) bahsedeceğiz.

 

Peki neden veri pazarları oluşturuyoruz? Verinin en optimum ve tarihsel derinliği oluşmuşken neden iş zekası uygulamalarımızı ve raporlarımızı sadece buradan almıyoruz ?

 

Bu soruya verilecek cevapların başında veri ambarının doğası gelmektedir. Terabaytlarca verinin olduğu yerden veriye erişebilmek ve rapor oluşturabilmek çok zordur. Yani veri pazarları ile veriye hızlı erişim sağlayabiliriz. İkinci olarak, verinin gruplanmamış yapıda olması ve farklı iş birimlerinin farklı verileri görmesidir. Bu da bize gereksiz bir iş yükü ve güvenlik sorununa neden olmaktadır. İşte tam bu noktada, veri pazarları konuya, bölümlere uygun, veri ambarının küçük bir kopyası halinde  çözüm sunmaktadır.

 

En son adım olan veri pazarlarının iki türlü yapabiliriz;

1-Klasik  Veri Pazarı (Data Mart) Kurumsal sistemler için kurulmuştur ve kurumsal yapıya özgüdür. Örneğin tahakkuk, hukuk, satış, ürün, veri pazarı gibi… Veri pazarları, genellikle 1-5 yıllık verileri barındırır. Bu yapıda, veriler 1-30 gün arasında sürekli günceldir. Burdaki veriler normalize edilmiş veriler değildir ve boyutsal olarak saklanmaktadır.

 

 

Boyutsal olarak saklanan bu veriler üzerinde; zaman, mekan, ürün, satış, müşteri gibi veriye  yeni boyutlar katarak, çok boyutlu raporlar almak mümkün olmaktadır.

 

 

2-Stratejik Veri Pazarı (Strategic Data Mart)  Stratejik veri pazarlarında ise karar destek sistemlerinin yönetimi ve stratejisi için kurulan yapılardır.

 

 

Veri pazarları iki türlü oluşturulabilir. Birincisi, veri ambarlarından gelen veriler ile oluşturulan. İkinci ise sıfırdan, hızla geliştirilen veri pazarları. Şirketinizin ihtiyacına göre bu iki yapıdan birisini seçebilirsiniz.

 

Buradaki yapıda anlatılan bileşenlerden bazıları kullanılmayabilir. Bu yapı tamamen örnektir.Şirketiniz için hangi yapının uygun olduğu IT ekipleri ve iş birimlerinin ortak çalışması sonucunda belli olacaktır. Veri ambarları günümüz şirketlerinde aktif olarak kullanılmaktadır.Veri ambarı yapısı bir kez oluşturulduktan sonra  şirketler  artık iş zekası ve veri madenciliği alanlarında kullanabileceği verilere en kolay yönden ulaşmış olur.

 

 

Bu yazımızda veri ambarı tarihsel gelişimi ve klasik bir veri ambarı yapısı anlatılmıştır. Her bir yapı için daha detaylı yazılarda görüşmek üzere…

 

Kaynaklar;

http://en.wikipedia.org/wiki/Data_warehouse

http://www.amazon.com/Data-Warehouse-Toolkit-Complete-Dimensional/dp/0471200247/ref=sr_1_1?s=books&ie=UTF8&qid=1345588374&sr=1-1&keywords=kimball+data+warehouse

http://www.amazon.com/DAMA-Guide-Management-Knowledge-DAMA-DMBOK/dp/0977140083

http://en.wikipedia.org/wiki/File:Data_warehouse_overview.JPG

http://en.wikipedia.org/wiki/Staging_(data)

http://www.datawarehouse.gen.tr/Makale.aspx?ID=374&seo=veri-ambari-ve-veri-madenciligi-nedir

About Yusuf Arslan

Sakarya Üniversitesi Bilgisayar Mühendisliği bölümünü bitirdikten sonra kariyerine Datawarehouse-Database Uzmanı olarak devam etmektedir Sitenin kurucusu ve yazarıdır. yusufarslanbm@gmail.com adresinden bana ulaşabilirsiniz.

İlginizi Çekebilir

Veri ambarı projelerinde yapılacak 10 hata

Merhaba Veri ambarı projelerinde yapılan,deneyimlerimden gördüğüm ” yapılan 10 hatayı” listeliyorum.  Bunlar arasında bana göre …

3 comments

  1. Paylaşımınız için çok teşekkürler. Çok faydalı oldu. Veri tabanı güvenliği gibi veri güvenliğini içeren yazılarınızı da görmek güzel olurdu..

  2. Hocam Çok teşekür ederim Karar destek dersindeki sunumum için çok yardımcı oldunuz emeğinize sağlık iyi çalısmalar….

  3. Cok faydali bir yazi olmus. Tezimi yazarken Sitenizden cok faydalandim. Su anda Yurt Disinda bir firmada Data Warehouse üzerine calisiyorum.

    Cok tesekürler
    Burak

Bir Cevap Yazın