Datawarehouse Sistemlerinde Test Aşamaları
Datawarehouse sistemlerinde ETL yaşam döngüsünde test aşamasının önemi bir hayli fazladır.Yazılım hataları veya ETL döngüsünde oluşan bir hata bize katlanarak geliyor.
Bundan dolayı ETL aşamalarında bazı test metodlarının iyi bilinmesi ve bu aşamlardan güvenli bir şekilde geçilmesi gerektiğini düşünüyorum.
Dünya da çeşitli test aşamaları vardır.Bunları kısaca gözden geçirelim;
1-Veri Bütünlüğü Testi :
Veri bütünlüğü, bir tabloda veri güncelleme, silme veya ekleme gibi işlemler
yapılırken diğer tablo ya da tablolardaki verilerin birbirleriyle uyum içinde olması, dolayısıyla veri tutarlılığının kaybolmamasının garanti altına alınması demektir.Tanımlanabilir ve Programsal veri bütünlüğü olarak ayırabiliriz.
ETL sürecimizde, gerekli tüm verilerin yüklendiğinden emin olmalıyız.Bozuk ,tutarsız verilerin girişi veya mevcut verilerin üzerinde değişiklik yaparken verilerin bozulmasını engellemeliyiz.Source ve target karşılaştırılmaları yapılarak veri ambarında gereksiz veya fazla veriler veri bütünlüğünü bozacağını düşünerek testlerimizi yapmalıyız.Kaynak sistemlere veriler yüklenirken gerekli ilişkisel keylerin doğru olup olmadığını kontrol etmemiz ve modellememizin buna göre oluşup oluşmadığına bakmamız gerekir.
Yanlış, tutarsız ve çelişkili verilerle elde edilen bilgiler şirketleri yanlış alınan kararlara, risklere, yükselen maliyetlere, kaybolan müşterilere ve kaybedilen işlere maruz bırakmaktadır. Temiz, nitelikli ve bütünsel veriler karar vericilerin işleriyle ilgili daha doğru karar vermesine yardımcı olur ve potansiyel risklerden kurtarır.
2-Veri Dönüşümü Testi:
Tüm veriler,iş kuralları ve/veya tasarım özelliklerine göre doğru bir dönüşüm uygulanması gerekmektedir.Bir çok veri dönüşüm algoritması vardır(logaritmik,karekökü,1/y..vb).Bu dönüşümlerin birçoğu embedded olarak gelir ve bizim yapacağımız tek şey kullanılacak veri dönüşüm toolunun ayarlarıyla oynaktırJ Kendi mimarimize özgü veri dönüşüm algoritmaları yazmak istiyorsak bu konuda matematik ve algoritma bilgimizin hayli yüksek olması gerekmektedir.
Veri dönüşümünde null kayıtların veya istenmeyen formattaki dataların kullanımı gruplar arası verilerin yaygınlığını ve dağılımını olumsuz etkileyecektir.Test yaparken bunların target tablolarımıza nasıl gideceğini bilmeli ve source sistemimizden load aşamasında bu adımlara dikkat etmeliyiz.Yapılacak veya unutulacak küçük bir veri dönüşümü kaybı bizi olası bilgiyi bulmamızı engeller ve eksik istatistik oluşturmamıza neden olur.
3- Veri Kalitesi Testi :
Büyük kapasitelerde arşiv bilgisine sahip olan,koplex yapıya sahip çok sayıda müşteriye sahip olan olan şirketler için veri kalitesinin önemi büyüktür.Veri kalitesinin alt başlıkları ;Veri Doğrulama (Data Validation), Veri Madenciliği (Data Mining), Veri Temizleme (Data Cleansing), Veri Optimizasyonu (Data Optimization) ve son olarak Kontrollerin İzlenmesi/Takibi (Monitoring Controls) dir.Bunlar ayrı ayrı veya projeye göre birlikte de kullanılabilir.
Kurumların yapacakları planlama,pazarlama ve performans ölçümü gibi iş zekası aktivitelerini arttırmak için veri kalitesinin önemi hayli büyüktür.Çok boyutlu analizler yapılarak sorunlu kısımlarda iyi bir data cleaning yapılması gerekmektedir.Bunun ETL sürecine dahil edilip edilmemesi gerektiği tamamen o anlık iş tanımına göre olabiliyor.O anlık datanın kalitesi arttırılabilip sonuca odaklı çözümde geliştirilebilir fakat bu aktivitelerin seviyesi bi hayli düşük olacaktır.Bu yüzden Veri kalitesi testi bizim normal sürecimizde olması gereken bir case olarak düşünüp buna göre testlerimizi oluşturmalıyız.
4- Performans ve Ölçeklenebilirlik Testi:
Ölçeklenebilirlik işlerimizde zaman kazandıran en önemli etkenlerden biridir.Bu performansı olumlu veya olumsuz yönden etkileyecektir.Veri miktarı veya kullanıcı sayısı arttıkça uygulamalar daha karmaşık hale gelir.Bu yüzden kullanılabilirlik ve güvenlik hassasiyeti artar.İşte bu noktada performans ve ölçeklenebilirliğin faydalarını görmeye başlarız.Sistemimizdeki dataların aktarımı,kalitesinin arttırılması,dönüşümlerinin yapılması ne kadar önemliyse performansı ve ölçeklenebilirliği o derecede önemlidir.Ölçekleyemediğimiz datanın önemi yoktur! Ve ölçekleyemediğimiz datanın performansınıda bilemeyiz.Bundan dolayı yazılan bir kodun veya çalıştığımız sistemin performans testlerinin büyük bir titizlikle yapılması gerekmektedir.Datanın az olduğu durumlar da performansı iyi gibi gözüken sistemler,ilerde bizi çok zorlayabilir.
5- Entegrasyon Testi :
İşletim sistemi, dosya sistemi, birimler arasındaki arayüz işlemleri ve donanım gibi değişik parçalar arasındaki etkileşimi test eder.Bu evrede Sistem için gerekli test araçları testerlar tarafından oluşturulur.Test tanımlarının dökümantasyonlarının sürece uygunluğu kontrol edilir.
6- Kullanıcı Kabul Testleri :
Kullanıcıların mevcut beklentilerini karşılamalıdır.Sistemin bir bölümüne veya tamamına güven tesis edilmelidir.Defect tespit edilmesi kabul testinin asıl ana amacı değildir.Burada sistemin sürüm ve kullanım için hazır olduğunun değerlendirilmesini bekleriz.Aynı zamanda sistem yöneticileri tarafından sistem kabulu olmalıdır.Bu kabuller için yedekleme,geri yükleme,bakım,periyodik kontroller,sözleşme..vb konularında mutabık kalınmak zorundayız
7- Regresyon Testi :
Sistemde yapılan değişikliklerin bozulmalara neden olup olmadığı test edilir.Bunun için sistemin altyapısının herzaman hazır olması gerekmektedir. Örneğin Test öncesi gerekli bilgi bankası silinerek, test için gerekli veriler tekrar yüklenebilir.
Oracle Flashback ile Eski Datalara Erişmek(as of timestamp)
Merhaba arkadaşlar,
Bu yazımda Oracle’ın flashback özelliğini kullanarak değiştirdiğimiz veya sildiğimiz verilere nasıl erişeceğimizi anlatacağım.
Önce örneğimiz için aşağıdaki gibi bir tablo oluşturalım :
ODI-Bağlantı Ayarları ve Repository Oluşturmak
Oracle Data Integrator kurulduktan sonra master ve work repositoryleri oluşturulması hakkında makalemizi paylaşıyor olacağım.Bu makaleyi link vermeden veya sitemizin ismi geçmeden paylaşabilirsiniz.Önemli olan bu yazıyı okurken bizim sizlere küçükte olsa bi katkı sağlayabilmemizdir.
Master Repository : Şirketin IT kaynaklarının yapısını , güvenlik bilgilerini , proje ve veri kaynaklarıyla ilgili bilgilerin tutulduğu repository’dir.Sadece bir tane master repository gereklidir.
Her Yönüyle Oracle Data Integrator
Datawarehouse sistemleriyle ilgili araştırmalarımda çok güzel bir yazıyla karşılaştım
http://www.iszekasi.com/joomla155/index.php/tr/blog/23-oracledb/202-oracle-data-integrator.html sitesinde de göreceğiniz gibi ODI kullanımı ve çözümlerine yönelik dökümanı inceleyelim
Datawarehouse Yapısından Azıcık
Bu makalemde bazı temel dwh bilgilerini paylaşmak istiyorum.Umarım faydalı olabiliriz..
Veri Ambarı kavramını açıklamak için birçok tanımlama yapılabilir ama basitçe tanımlayacak olursak Veri Ambarları bir şirketin bütün verilerini depolamak için oluşturulan alanlardır. Veriler değer derecelerine ve iş ilişkilerine göre toplanır.
Data Mart'larınızı oluşturmadan Data Cleansing Yapın
Data Cleansing, data martlarımızı oluşturmadan önce mutlaka ayarlanması gereken ve ilerde ETL süreçlerimizde bizi sıkıntıya sokacak türden verilen kullanımını engeller ve aynı formata girmesini sağlar.Örneğin tarih alanlarımızda a,d,56,!..vb gibi karakterler görüyorsak bunları null,sysdate veya bizim belirlediğimiz herhangi bir alanda istediğimiz şekilde o veriyi tutmamız gerekecektir.
İşte bu yüzden işzekası nda bulunan bu güzel yazıyı paylaşıyorum
Microsoft Datawarehouse'a Varım diyor!
Microsoft, verinin olusumundan/depolanmasından baslayarak, son kullanıcının
mevcut veri uzerinden gecmisle ilgili analiz ve gelecekle ilgili kestirimlerde bulunmasını
sağlayacak bir dizi arac ve yontem sunmakta ve bunların butunune “İs Zekası”
uygulamaları demektedir.
Karar vericilerin en doğru kararları verebilmesi icin organizasyonun urettiği verilerin
veritabanı uzmanlarınca en doğru sekilde yapılandırılarak saklanması, gerektiğinde
farklı ortamlardan alınan verilerin uygun bir bicimde bir araya getirilmesi ve veri
analistlerince uygun yontemlerle is analistlerine sunulması ve is analistlerince
yorumlanarak karar vericilerin anlayabileceği bicime donusturulmesi gerekmektedir.
Microsoft bu sureclere destek vermek icin SQL Server urununu OLTP veritabanı
sunucusu olarak, SQL Server Integration Services urununu veri transferi ve temizleme
aracı olarak, SQL Server Analysis Server aracını veri madenciliği ve analiz aracı
olarak, son olarak da SQL Server Reporting Services aracını, sonucları son kullanıcılara
gostermek amacıyla raporlama aracı olarak sunmaktadır.
Ayrıcı Excel ve bazı diğer web bilesenleriyle, veri madenciliği ve analizi sonuclarını son
kullanıcıların daha rahat ve etkin kullanacağı araclar da sunmaktadır.
Meta Data Nedir ?
Meta Data Nedir ?
Metadata çooğunlukla data hakkında bilgi olarak tanımlanmaktadır. Tam olarak Metadata datayı tanımlamaktadır. Yani datanın nasıl kullanıldığını ve sistemlerin dataları nasıl yöneteceğini tarif etmektedir.Genellikle metadaların içerdikleri ;
Veri Madenciliği(Data Mining) Nedir ve Nerelerde Kullanılır-1
Merhaba Arkadaşlar,
Sitemize Oracle konusunda bilgilerini bizimle paylaşacak çok değerli bir arkadaşımız daha katıldı.Ogan Özdoğan bloğunda paylaştığı yazıları burada yayınlıyor olacağız.Sizde sitenizde,bloğunuzda,grubunuzda..yazılarınızı bizimle paylaşmak isterseniz Bu e-Posta adresi istek dışı postalardan korunmaktadır, görüntülüyebilmek için JavaScript etkinleştirilmelidir adresine mail atmanız yeterli olacaktır.
Oracle Data Mining Mining Techniques and Algorithms
Bu yazımda sizlere Data mining algoritmaların dan bahsedeceğim.Linkten gerekli bilgilere ulaşabilirsiniz.Devamı gelecek..
http://www.oracle.com/technetwork/database/enterprise-edition/odm-techniques-algorithms-097163.html