Datawarehouse Sistemlerinde Test Aşamaları
Datawarehouse sistemlerinde ETL yaşam döngüsünde test aşamasının önemi bir hayli fazladır.Yazılım hataları veya ETL döngüsünde oluşan bir hata bize katlanarak geliyor.
Bundan dolayı ETL aşamalarında bazı test metodlarının iyi bilinmesi ve bu aşamlardan güvenli bir şekilde geçilmesi gerektiğini düşünüyorum.
Dünya da çeşitli test aşamaları vardır.Bunları kısaca gözden geçirelim;
1-Veri Bütünlüğü Testi :
Veri bütünlüğü, bir tabloda veri güncelleme, silme veya ekleme gibi işlemler
yapılırken diğer tablo ya da tablolardaki verilerin birbirleriyle uyum içinde olması, dolayısıyla veri tutarlılığının kaybolmamasının garanti altına alınması demektir.Tanımlanabilir ve Programsal veri bütünlüğü olarak ayırabiliriz.
ETL sürecimizde, gerekli tüm verilerin yüklendiğinden emin olmalıyız.Bozuk ,tutarsız verilerin girişi veya mevcut verilerin üzerinde değişiklik yaparken verilerin bozulmasını engellemeliyiz.Source ve target karşılaştırılmaları yapılarak veri ambarında gereksiz veya fazla veriler veri bütünlüğünü bozacağını düşünerek testlerimizi yapmalıyız.Kaynak sistemlere veriler yüklenirken gerekli ilişkisel keylerin doğru olup olmadığını kontrol etmemiz ve modellememizin buna göre oluşup oluşmadığına bakmamız gerekir.
Yanlış, tutarsız ve çelişkili verilerle elde edilen bilgiler şirketleri yanlış alınan kararlara, risklere, yükselen maliyetlere, kaybolan müşterilere ve kaybedilen işlere maruz bırakmaktadır. Temiz, nitelikli ve bütünsel veriler karar vericilerin işleriyle ilgili daha doğru karar vermesine yardımcı olur ve potansiyel risklerden kurtarır.
2-Veri Dönüşümü Testi:
Tüm veriler,iş kuralları ve/veya tasarım özelliklerine göre doğru bir dönüşüm uygulanması gerekmektedir.Bir çok veri dönüşüm algoritması vardır(logaritmik,karekökü,1/y..vb).Bu dönüşümlerin birçoğu embedded olarak gelir ve bizim yapacağımız tek şey kullanılacak veri dönüşüm toolunun ayarlarıyla oynaktırJ Kendi mimarimize özgü veri dönüşüm algoritmaları yazmak istiyorsak bu konuda matematik ve algoritma bilgimizin hayli yüksek olması gerekmektedir.
Veri dönüşümünde null kayıtların veya istenmeyen formattaki dataların kullanımı gruplar arası verilerin yaygınlığını ve dağılımını olumsuz etkileyecektir.Test yaparken bunların target tablolarımıza nasıl gideceğini bilmeli ve source sistemimizden load aşamasında bu adımlara dikkat etmeliyiz.Yapılacak veya unutulacak küçük bir veri dönüşümü kaybı bizi olası bilgiyi bulmamızı engeller ve eksik istatistik oluşturmamıza neden olur.
3- Veri Kalitesi Testi :
Büyük kapasitelerde arşiv bilgisine sahip olan,koplex yapıya sahip çok sayıda müşteriye sahip olan olan şirketler için veri kalitesinin önemi büyüktür.Veri kalitesinin alt başlıkları ;Veri Doğrulama (Data Validation), Veri Madenciliği (Data Mining), Veri Temizleme (Data Cleansing), Veri Optimizasyonu (Data Optimization) ve son olarak Kontrollerin İzlenmesi/Takibi (Monitoring Controls) dir.Bunlar ayrı ayrı veya projeye göre birlikte de kullanılabilir.
Kurumların yapacakları planlama,pazarlama ve performans ölçümü gibi iş zekası aktivitelerini arttırmak için veri kalitesinin önemi hayli büyüktür.Çok boyutlu analizler yapılarak sorunlu kısımlarda iyi bir data cleaning yapılması gerekmektedir.Bunun ETL sürecine dahil edilip edilmemesi gerektiği tamamen o anlık iş tanımına göre olabiliyor.O anlık datanın kalitesi arttırılabilip sonuca odaklı çözümde geliştirilebilir fakat bu aktivitelerin seviyesi bi hayli düşük olacaktır.Bu yüzden Veri kalitesi testi bizim normal sürecimizde olması gereken bir case olarak düşünüp buna göre testlerimizi oluşturmalıyız.
4- Performans ve Ölçeklenebilirlik Testi:
Ölçeklenebilirlik işlerimizde zaman kazandıran en önemli etkenlerden biridir.Bu performansı olumlu veya olumsuz yönden etkileyecektir.Veri miktarı veya kullanıcı sayısı arttıkça uygulamalar daha karmaşık hale gelir.Bu yüzden kullanılabilirlik ve güvenlik hassasiyeti artar.İşte bu noktada performans ve ölçeklenebilirliğin faydalarını görmeye başlarız.Sistemimizdeki dataların aktarımı,kalitesinin arttırılması,dönüşümlerinin yapılması ne kadar önemliyse performansı ve ölçeklenebilirliği o derecede önemlidir.Ölçekleyemediğimiz datanın önemi yoktur! Ve ölçekleyemediğimiz datanın performansınıda bilemeyiz.Bundan dolayı yazılan bir kodun veya çalıştığımız sistemin performans testlerinin büyük bir titizlikle yapılması gerekmektedir.Datanın az olduğu durumlar da performansı iyi gibi gözüken sistemler,ilerde bizi çok zorlayabilir.
5- Entegrasyon Testi :
İşletim sistemi, dosya sistemi, birimler arasındaki arayüz işlemleri ve donanım gibi değişik parçalar arasındaki etkileşimi test eder.Bu evrede Sistem için gerekli test araçları testerlar tarafından oluşturulur.Test tanımlarının dökümantasyonlarının sürece uygunluğu kontrol edilir.
6- Kullanıcı Kabul Testleri :
Kullanıcıların mevcut beklentilerini karşılamalıdır.Sistemin bir bölümüne veya tamamına güven tesis edilmelidir.Defect tespit edilmesi kabul testinin asıl ana amacı değildir.Burada sistemin sürüm ve kullanım için hazır olduğunun değerlendirilmesini bekleriz.Aynı zamanda sistem yöneticileri tarafından sistem kabulu olmalıdır.Bu kabuller için yedekleme,geri yükleme,bakım,periyodik kontroller,sözleşme..vb konularında mutabık kalınmak zorundayız
7- Regresyon Testi :
Sistemde yapılan değişikliklerin bozulmalara neden olup olmadığı test edilir.Bunun için sistemin altyapısının herzaman hazır olması gerekmektedir. Örneğin Test öncesi gerekli bilgi bankası silinerek, test için gerekli veriler tekrar yüklenebilir.
SAP (System Applications and Products)
SAP (System Applications and Products)
Bu yazımızda SAP'nin piyasaya çıkış serüveni ile birlikte temel olarak dayandığı mimariye değineceğiz. SAP sistemlerini tanımak ve genel hatları ile mimarisini anlamak için önsöz niteliğinde bir yazı ile başlayalım istedik.
Datawarehouse Yapısından Azıcık
Bu makalemde bazı temel dwh bilgilerini paylaşmak istiyorum.Umarım faydalı olabiliriz..
Veri Ambarı kavramını açıklamak için birçok tanımlama yapılabilir ama basitçe tanımlayacak olursak Veri Ambarları bir şirketin bütün verilerini depolamak için oluşturulan alanlardır. Veriler değer derecelerine ve iş ilişkilerine göre toplanır.
Data Mart'larınızı oluşturmadan Data Cleansing Yapın
Data Cleansing, data martlarımızı oluşturmadan önce mutlaka ayarlanması gereken ve ilerde ETL süreçlerimizde bizi sıkıntıya sokacak türden verilen kullanımını engeller ve aynı formata girmesini sağlar.Örneğin tarih alanlarımızda a,d,56,!..vb gibi karakterler görüyorsak bunları null,sysdate veya bizim belirlediğimiz herhangi bir alanda istediğimiz şekilde o veriyi tutmamız gerekecektir.
İşte bu yüzden işzekası nda bulunan bu güzel yazıyı paylaşıyorum
Microsoft Datawarehouse'a Varım diyor!
Microsoft, verinin olusumundan/depolanmasından baslayarak, son kullanıcının
mevcut veri uzerinden gecmisle ilgili analiz ve gelecekle ilgili kestirimlerde bulunmasını
sağlayacak bir dizi arac ve yontem sunmakta ve bunların butunune “İs Zekası”
uygulamaları demektedir.
Karar vericilerin en doğru kararları verebilmesi icin organizasyonun urettiği verilerin
veritabanı uzmanlarınca en doğru sekilde yapılandırılarak saklanması, gerektiğinde
farklı ortamlardan alınan verilerin uygun bir bicimde bir araya getirilmesi ve veri
analistlerince uygun yontemlerle is analistlerine sunulması ve is analistlerince
yorumlanarak karar vericilerin anlayabileceği bicime donusturulmesi gerekmektedir.
Microsoft bu sureclere destek vermek icin SQL Server urununu OLTP veritabanı
sunucusu olarak, SQL Server Integration Services urununu veri transferi ve temizleme
aracı olarak, SQL Server Analysis Server aracını veri madenciliği ve analiz aracı
olarak, son olarak da SQL Server Reporting Services aracını, sonucları son kullanıcılara
gostermek amacıyla raporlama aracı olarak sunmaktadır.
Ayrıcı Excel ve bazı diğer web bilesenleriyle, veri madenciliği ve analizi sonuclarını son
kullanıcıların daha rahat ve etkin kullanacağı araclar da sunmaktadır.
IBM'den çevre dostu veritabanı sistemi
IBM'den çevre dostu veritabanı sistemi
IBM’in yeni DB2 veritabanı sürümü, veri saklama altyapılarından kaynaklanan karbon salınımını %75’e varan oranda azaltarak, küresel ısınmayla savaşıyor.
IBM, yeni DB2 veritabanında yüksek ölçekli sıkıştırma teknolojisini kullanarak, aynı sabit disk üzerinde 4 kat fazla veri saklamayı mümkün kılıyor. Bu sayede, sürekli çalışan sabit disklerin harcadığı ve ünitelerin soğutulması için kullanılan enerjiyi %75 oranında düşürüyor. DB2, kurumlarda sürekli depolanması ve erişilmesi gereken verilerin yol açtığı karbon salınınımını da aynı oranda azaltıyor. DB2’nin 9.7 sürümü, Haziran ayında satışa sunulacak.
Veriambarı Yazılım Geliştirme Sürecinde Test
Veriambarı bir organizasyonun elektronik olarak saklanan datasının deposudur.Veri
ambarları raporlama ve analizi kolaylaştırmak için dizayn edilmişlerdir. Veriambarları analiz ve ilişkili verilerin sorgulanabildiği sistemlerdir.Birden fazla kaynak sistemin işleme tabi tutulmasıyla oluşmuştur.Ayrıca bu şekilde anlık işlemlerin gerçekleştiği veritabanlarındaki tutarsızlıkların ve kirli verilerin filtrelenerek analiz ve raporların etkilenmemesi sağlanmıştır.
Avea BT Sistemleri Uygulama Geliştirme Direktörü Cahit Terzioğlu
Merhaba,
ETL süreçlerini ve faydalarını iyi analiz edebileceğimiz bir yazı paylaşıyoruz.Bunun için Avea BT Sistemleri Direktörü Cahit Beyle roportajdan bir bölüm yayınlayalım.
Avea BT Sistemleri Uygulama Geliştirme Direktörü Cahit Terzioğlu
"IBM Information Server DataStage ürününü işimizin kritik bir bileşeni olarak görüyoruz"
Operasyonal sistemlerinden analiz sistemlerine hızlı, düzenli ve uygun formatta veri akışını sağlamada bir ETL aracından faydalanmaya karar veren Avea BT ekibi, veri entegrasyonu ihtiyaçlarına yanıt verecek en uygun çözüm olarak IBM Information Server DataStage yazılımını seçti. Türkiye'nin önde gelen mobil iletişim operatörü olan Avea'nın BT Sistemleri Uygulama Geliştirme Direktörü Cahit Terzioğlu, son derece rekabetçi olan mobil iletişim pazarında iş başarısı için datawarehouse sistemlerinin sağlıklı sonuçlar üretmesi gerektiğini, bunun için de DataStage gibi bir veri entegrasyonu aracı kullanmanın zorunlu olduğunu belirtiyor.
Veri, Veritabanı, Başarılı Veritabanı Uygulamaları İçin Dört Öneri
Hasan Tonguç Yılmaz bey’in Turkcell bloğunda yeralan yazılarını izniyle paylaşıyor olacağız.Öncelikle tanımayanlar için Tonguç Yılmaz kimdir kendi yazılarından tanıyalım.
SUMMARY OF PROFESSIONAL EXPERIENCE
09 Sep – Present Time Turkcell Teknoloji Revenue Oriented Business Intelligence Team, GebzeManager
SOA Nedir?
SOA seminerlerime katılanlardan gelen yoğun istek üzerine bu seminerlerde anlatttıklarımı derleyerek bir makale haline getirdim. İşte karşınızda günümüzün popüler mimarisi SOA.
Yazılım mimarilerine güncel ve popüler bir yaklaşım: Herşey bir gün servis olacak!