Home / MAKALELER / İş Zekası / Veri Kalitesi Soruları

Veri Kalitesi Soruları

Bu yazımda hap niteliğinde 🙂 veri kalitesi sorunları ve çözümlerinden kısaca bahsedeceğim.

 

dqyeni

 

Şirketler için veri kalitesinin ne kadar önemli oldugunu biliyoruz.Peki şirketler verilerinin kaliteli olup olmadıgını ne zaman anlar ?

 

 

Data Quality kavramı ;  entegrasyon,master data management ,customer data integration ,migration ve veri ambarı projelerinde çok daha fazla karşımıza çıkmaktadır.

Veri ambarı tasarlıyorsunuz diyelim.Staging,dw ,dm katmanında veya ETL aşamasında verilerini kaliteleştireceksiniz.Data Quality için bazı sorular ve sorunları sıralayalım;

 

 

–          Kaynaktan gelen müşteri numarası ile  dw veri aynı uzunlukta değil ! (aktarılacak alan daha kısa ,ne güzel J)

–          Kaynaktan gelen veri tipi karakter tanımlanmış fakat hedefte number ?

–          “Çok garip ama en fazla işlem yapan müşterimizin soyadı yok “ J

–          Aynı müşterimiz farklı ortamlarda farklı id lere sahip (istemediğimiz halde  ) tekilleştiremiyoruz!

–          “Ha dr. yazmışım ha doktor sonuçta aynı adam değilmi o şekilde gir sen datayı” (sonunu düşünmeyen kahraman)

–          Ben o kolona o şekilde datanın geleceğini düşünememiştim(büyük bir planlama hatası) hadi baştan etl ‘e..

–          Türkiyede böyle bir il yok raporda nasıl geldi ?

–          “Müşteri numarası” alanı bu tabloda “Numara” diye geçiyor bu o alan mı demek oluyor ?

–          Cep telefonu 0-5xxx-xxx-xx-xx formatında ama diğer tabloda 5xx-xxx-xx-xx şeklinde . 0 ekleyecekmiyiz ?

–          Veri kaynaktan itibaren yanlış girilmiş nasıl düzeltebilirim ki !

–          “Hayır efendim benim arabam yok.Sizin  sisteminizde nasıl arabam var diye görünebilir ki” ?

 

 

Bunun gibi birçok olay gelmiştir başınıza..

Peki bunlar neden oluyor ,bunun önüne nasıl geçebiliriz ?

 

 

Öncelike güçlü bir profillendirme ihtiyacımız olacaktır.Verinin uçtan uca yönetiminde iyi bir analiz çıkartıp verinin rapor aşamasına kadar ki sürecini takip etmemiz gerekiyor. Veri kaynaktan ilk alınma aşamasından itibaren bozuk ,tutarsız veya yanlış verileri temizlemek gerekir.Alanları standartlaştırmak ve her ortamda aynı formatta kullanmalıyız.

 

 

Verimiz şirketimizin standartlarına uygun olmalı.Kalitesiz veri şirkete olan güveni sarsar.Kalitesiz veri yüksek maliyet ve düşük gelir demektir.Daha çok harca daha az kazan J

 

 

Kalitesiz veri daha çok veriyle uğraşmayıda beraberinde getirir(tekil olmayan birçok veri) Bu daha çok işlem daha fazla yedek data fazla disk  demektir !

 

 

Data Quality denilince aklımıza test aşamaları da gelmelidir.İyi bir test ve gözlem yeteneği verinin kalitesini arttıracaktır.

Unutmayalım Kaliteli veri daha çok müşteri daha çok kar daha fazla müşteri memnuniyeti daha fazla güven demektir.

 

 

Bir sonraki makalemizde görüşmek üzere.

About Yusuf Arslan

Sakarya Üniversitesi Bilgisayar Mühendisliği bölümünü bitirdikten sonra kariyerine Datawarehouse-Database Uzmanı olarak devam etmektedir Sitenin kurucusu ve yazarıdır. yusufarslanbm@gmail.com adresinden bana ulaşabilirsiniz.

İlginizi Çekebilir

Informatica Ile Incremental Süreçlerin Yönetimi-2 (SCD Type-2 Current Flag Column)

Merhabalar, Önceki yazımda Incremental süreç nedir, nasıl bir ihtiyaç sonucu uygulamaya başlarız, SCD Type ların …

Bir Cevap Yazın